論文の概要: Diverse Exploration via InfoMax Options
- arxiv url: http://arxiv.org/abs/2010.02756v1
- Date: Tue, 6 Oct 2020 14:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-10 05:35:53.631395
- Title: Diverse Exploration via InfoMax Options
- Title(参考訳): infomaxオプションによる多様な探索
- Authors: Yuji Kanagawa and Tomoyuki Kaneko
- Abstract要約: 本研究では,強化学習における時間的抽象的行動や選択肢を自律的に発見する問題について検討する。
探索に適した多様な選択肢を学習するために,選択肢とそれに対応する状態遷移の相互情報として定義されたインフォマックス終了目標を導入する。
我々は、オプションの終了条件によってこの目的を最大化するためのスケーラブルな最適化スキームを導出し、InfoMax Option Critic (IMOC)アルゴリズムを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of autonomously discovering temporally
abstracted actions, or options, for exploration in reinforcement learning. For
learning diverse options suitable for exploration, we introduce the infomax
termination objective defined as the mutual information between options and
their corresponding state transitions. We derive a scalable optimization scheme
for maximizing this objective via the termination condition of options,
yielding the InfoMax Option Critic (IMOC) algorithm. Through illustrative
experiments, we empirically show that IMOC learns diverse options and utilizes
them for exploration. Moreover, we show that IMOC scales well to continuous
control tasks.
- Abstract(参考訳): 本稿では,強化学習における時間的抽象的行動や選択肢を自律的に発見する問題について検討する。
探索に適した多様な選択肢を学習するために,選択肢と対応する状態遷移の相互情報として定義されたインフォマックス終了目標を導入する。
我々は、オプションの終了条件によってこの目的を最大化するためのスケーラブルな最適化スキームを導出し、InfoMax Option Critic (IMOC)アルゴリズムを得る。
実証実験を通じて、IMOCは多様な選択肢を学習し、探索に利用することを示す。
さらに, IMOC は連続制御タスクに適していることを示す。
関連論文リスト
- Reusable Options through Gradient-based Meta Learning [24.59017394648942]
エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-12-22T14:19:35Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Diversity-Enriched Option-Critic [47.82697599507171]
提案手法は,複数の個別かつ連続的な制御タスクにおいて,エンドツーエンドの選択肢を学習することができることを示す。
我々のアプローチは、オプション批判とは対照的に、堅牢で、再利用可能な、信頼性があり、解釈可能なオプションを生成します。
論文 参考訳(メタデータ) (2020-11-04T22:12:54Z) - Optimal Options for Multi-Task Reinforcement Learning Under Time
Constraints [0.6445605125467573]
強化学習は、反復的な振る舞いを符号化し、探索を促進する方法としてオプションを使うことの恩恵を受けることができる。
エージェントが各タスクを学習するための限られた時間予算を持つ設定において、選択肢の最適性に影響を与える条件について検討する。
得られた選択肢は、利用可能な学習時間予算や、得られた選択肢が人気のある選択肢世代よりも優れているという要因によって大きく異なることを示す。
論文 参考訳(メタデータ) (2020-01-06T15:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。