論文の概要: Diversity-Enriched Option-Critic
- arxiv url: http://arxiv.org/abs/2011.02565v1
- Date: Wed, 4 Nov 2020 22:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:30:42.889004
- Title: Diversity-Enriched Option-Critic
- Title(参考訳): 多様性に富むオプション批判
- Authors: Anand Kamat and Doina Precup
- Abstract要約: 提案手法は,複数の個別かつ連続的な制御タスクにおいて,エンドツーエンドの選択肢を学習することができることを示す。
我々のアプローチは、オプション批判とは対照的に、堅牢で、再利用可能な、信頼性があり、解釈可能なオプションを生成します。
- 参考スコア(独自算出の注目度): 47.82697599507171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal abstraction allows reinforcement learning agents to represent
knowledge and develop strategies over different temporal scales. The
option-critic framework has been demonstrated to learn temporally extended
actions, represented as options, end-to-end in a model-free setting. However,
feasibility of option-critic remains limited due to two major challenges,
multiple options adopting very similar behavior, or a shrinking set of task
relevant options. These occurrences not only void the need for temporal
abstraction, they also affect performance. In this paper, we tackle these
problems by learning a diverse set of options. We introduce an
information-theoretic intrinsic reward, which augments the task reward, as well
as a novel termination objective, in order to encourage behavioral diversity in
the option set. We show empirically that our proposed method is capable of
learning options end-to-end on several discrete and continuous control tasks,
outperforms option-critic by a wide margin. Furthermore, we show that our
approach sustainably generates robust, reusable, reliable and interpretable
options, in contrast to option-critic.
- Abstract(参考訳): 時間的抽象化により、強化学習エージェントは知識を表現し、異なる時間的スケールの戦略を開発することができる。
オプション批判フレームワークは、モデルフリー設定でオプションとして表現される、時間的に拡張されたアクションをエンドツーエンドで学習する。
しかし、オプション批判の可能性は、2つの大きな課題、非常に類似した動作を採用する複数のオプション、タスク関連オプションの縮小のために制限されている。
これらの発生は、一時的な抽象化の必要性を損なうだけでなく、パフォーマンスにも影響を及ぼす。
本稿では,様々な選択肢を学習することで,これらの問題に取り組む。
本稿では,課題報酬を増大させる情報理論固有の報酬と,オプションセットにおける行動多様性を促進するための新たな終了目標を提案する。
提案手法は,複数の離散的かつ連続的な制御タスクに対してエンドツーエンドでオプションを学習できることを実証的に示す。
さらに,提案手法は,オプション批判とは対照的に,堅牢で再利用可能な,信頼性の高い,解釈可能な選択肢を持続的に生成することを示す。
関連論文リスト
- Reusable Options through Gradient-based Meta Learning [24.59017394648942]
エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-12-22T14:19:35Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Temporal Abstraction in Reinforcement Learning with the Successor
Representation [65.69658154078007]
我々は、後継表現(SR)が時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々は、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-10-12T05:07:43Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Optimal Options for Multi-Task Reinforcement Learning Under Time
Constraints [0.6445605125467573]
強化学習は、反復的な振る舞いを符号化し、探索を促進する方法としてオプションを使うことの恩恵を受けることができる。
エージェントが各タスクを学習するための限られた時間予算を持つ設定において、選択肢の最適性に影響を与える条件について検討する。
得られた選択肢は、利用可能な学習時間予算や、得られた選択肢が人気のある選択肢世代よりも優れているという要因によって大きく異なることを示す。
論文 参考訳(メタデータ) (2020-01-06T15:08:46Z) - Options of Interest: Temporal Abstraction with Interest Functions [58.30081828754683]
一般関数近似に適した開始集合の一般化を、オプションに関連付けられた興味関数を定義することによって提供する。
我々は、関心関数に対する勾配に基づく学習アルゴリズムを導出し、新たな関心選択批判的アーキテクチャを創出する。
論文 参考訳(メタデータ) (2020-01-01T21:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。