論文の概要: Learning Diverse Options via InfoMax Termination Critic
- arxiv url: http://arxiv.org/abs/2010.02756v2
- Date: Wed, 31 May 2023 04:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 04:58:01.287814
- Title: Learning Diverse Options via InfoMax Termination Critic
- Title(参考訳): InfoMax Termination Criticによる多様なオプションの学習
- Authors: Yuji Kanagawa and Tomoyuki Kaneko
- Abstract要約: 我々は、強化学習において、再利用可能な時間的拡張行動や選択肢を自律的に学習する問題を考察する。
近年の相互情報に基づくスキル学習の成功に触発されて、より多様な選択肢がより再利用できるという仮説を立てた。
オプションと対応する状態遷移の間のMIを最大化することにより、オプションの勾配を学習する方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of autonomously learning reusable temporally extended
actions, or options, in reinforcement learning. While options can speed up
transfer learning by serving as reusable building blocks, learning reusable
options for unknown task distribution remains challenging. Motivated by the
recent success of mutual information (MI) based skill learning, we hypothesize
that more diverse options are more reusable. To this end, we propose a method
for learning termination conditions of options by maximizing MI between options
and corresponding state transitions. We derive a scalable approximation of this
MI maximization via gradient ascent, yielding the InfoMax Termination Critic
(IMTC) algorithm. Our experiments demonstrate that IMTC significantly improves
the diversity of learned options without extrinsic rewards combined with an
intrinsic option learning method. Moreover, we test the reusability of learned
options by transferring options into various tasks, confirming that IMTC helps
quick adaptation, especially in complex domains where an agent needs to
manipulate objects.
- Abstract(参考訳): 強化学習において,時間的に拡張された行動や選択肢を自律的に学習する問題を考える。
オプションは再利用可能なビルディングブロックとして機能することで転送学習をスピードアップすることができるが、未知のタスク分散のための再利用可能なオプションの学習は依然として困難である。
近年の相互情報(MI)に基づくスキル学習の成功に触発されて、より多様な選択肢がより再利用できるという仮説を立てた。
そこで本研究では,オプションと対応する状態遷移の間のMIを最大化することにより,オプションの終了条件を学習する手法を提案する。
我々は、勾配上昇によるこのMI最大化のスケーラブルな近似を導出し、InfoMax Termination Critic (IMTC)アルゴリズムを得る。
実験により,imtcは学習オプションの多様性を,内在的オプション学習法と組み合わせることなく大幅に改善することを示した。
さらに, エージェントがオブジェクトを操作する複雑な領域において, IMTCが迅速な適応に役立つことを確認し, 様々なタスクにオプションを転送することで, 学習オプションの再利用性を検証する。
関連論文リスト
- Reusable Options through Gradient-based Meta Learning [24.59017394648942]
エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-12-22T14:19:35Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Diversity-Enriched Option-Critic [47.82697599507171]
提案手法は,複数の個別かつ連続的な制御タスクにおいて,エンドツーエンドの選択肢を学習することができることを示す。
我々のアプローチは、オプション批判とは対照的に、堅牢で、再利用可能な、信頼性があり、解釈可能なオプションを生成します。
論文 参考訳(メタデータ) (2020-11-04T22:12:54Z) - Optimal Options for Multi-Task Reinforcement Learning Under Time
Constraints [0.6445605125467573]
強化学習は、反復的な振る舞いを符号化し、探索を促進する方法としてオプションを使うことの恩恵を受けることができる。
エージェントが各タスクを学習するための限られた時間予算を持つ設定において、選択肢の最適性に影響を与える条件について検討する。
得られた選択肢は、利用可能な学習時間予算や、得られた選択肢が人気のある選択肢世代よりも優れているという要因によって大きく異なることを示す。
論文 参考訳(メタデータ) (2020-01-06T15:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。