論文の概要: Attention Option-Critic
- arxiv url: http://arxiv.org/abs/2201.02628v1
- Date: Fri, 7 Jan 2022 18:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 14:41:18.469830
- Title: Attention Option-Critic
- Title(参考訳): 注意オプション批判
- Authors: Raviteja Chunduru, Doina Precup
- Abstract要約: 本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
- 参考スコア(独自算出の注目度): 56.50123642237106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal abstraction in reinforcement learning is the ability of an agent to
learn and use high-level behaviors, called options. The option-critic
architecture provides a gradient-based end-to-end learning method to construct
options. We propose an attention-based extension to this framework, which
enables the agent to learn to focus different options on different aspects of
the observation space. We show that this leads to behaviorally diverse options
which are also capable of state abstraction, and prevents the degeneracy
problems of option domination and frequent option switching that occur in
option-critic, while achieving a similar sample complexity. We also demonstrate
the more efficient, interpretable, and reusable nature of the learned options
in comparison with option-critic, through different transfer learning tasks.
Experimental results in a relatively simple four-rooms environment and the more
complex ALE (Arcade Learning Environment) showcase the efficacy of our
approach.
- Abstract(参考訳): 強化学習における時間的抽象化は、エージェントが選択肢と呼ばれる高度な行動を学び、使用する能力である。
option-criticアーキテクチャは、オプションを構築するための勾配ベースのエンドツーエンド学習方法を提供する。
本稿では,観察空間の異なる側面に異なる選択肢を集中させることを学習できる,注目に基づくこのフレームワークの拡張を提案する。
同様に状態抽象化が可能で,オプション支配や頻繁なオプション切替といったデリケートな問題を防止すると同時に,類似のサンプル複雑性を実現している。
また,異なるトランスファー学習タスクを通じて,学習オプションの効率性,解釈性,再利用可能な性質を示す。
比較的単純な4室環境とより複雑なale(arcade learning environment)における実験結果から,本手法の有効性が示された。
関連論文リスト
- Reusable Options through Gradient-based Meta Learning [24.59017394648942]
エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-12-22T14:19:35Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Temporal Abstraction in Reinforcement Learning with the Successor
Representation [65.69658154078007]
我々は、後継表現(SR)が時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々は、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-10-12T05:07:43Z) - Context-Specific Representation Abstraction for Deep Option Learning [43.68681795014662]
我々は、Deep Option Learning(CRADOL)のためのコンテキスト特化表現抽象化を導入する。
CRADOLは、時間的抽象化とコンテキスト固有の表現抽象化の両方を考慮し、ポリシー空間上の検索のサイズを効果的に削減する新しいフレームワークである。
具体的には、各オプションが状態空間のサブセクションのみを越えてポリシーを学習することのできる、ファクタードな信念状態表現を学習する。
論文 参考訳(メタデータ) (2021-09-20T22:50:01Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Diversity-Enriched Option-Critic [47.82697599507171]
提案手法は,複数の個別かつ連続的な制御タスクにおいて,エンドツーエンドの選択肢を学習することができることを示す。
我々のアプローチは、オプション批判とは対照的に、堅牢で、再利用可能な、信頼性があり、解釈可能なオプションを生成します。
論文 参考訳(メタデータ) (2020-11-04T22:12:54Z) - Options of Interest: Temporal Abstraction with Interest Functions [58.30081828754683]
一般関数近似に適した開始集合の一般化を、オプションに関連付けられた興味関数を定義することによって提供する。
我々は、関心関数に対する勾配に基づく学習アルゴリズムを導出し、新たな関心選択批判的アーキテクチャを創出する。
論文 参考訳(メタデータ) (2020-01-01T21:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。