論文の概要: Flexible Option Learning
- arxiv url: http://arxiv.org/abs/2112.03097v1
- Date: Mon, 6 Dec 2021 15:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 20:47:00.102690
- Title: Flexible Option Learning
- Title(参考訳): 柔軟なオプション学習
- Authors: Martin Klissarov and Doina Precup
- Abstract要約: 我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
- 参考スコア(独自算出の注目度): 69.78645585943592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal abstraction in reinforcement learning (RL), offers the promise of
improving generalization and knowledge transfer in complex environments, by
propagating information more efficiently over time. Although option learning
was initially formulated in a way that allows updating many options
simultaneously, using off-policy, intra-option learning (Sutton, Precup &
Singh, 1999), many of the recent hierarchical reinforcement learning approaches
only update a single option at a time: the option currently executing. We
revisit and extend intra-option learning in the context of deep reinforcement
learning, in order to enable updating all options consistent with current
primitive action choices, without introducing any additional estimates. Our
method can therefore be naturally adopted in most hierarchical RL frameworks.
When we combine our approach with the option-critic algorithm for option
discovery, we obtain significant improvements in performance and
data-efficiency across a wide variety of domains.
- Abstract(参考訳): 強化学習(rl)の時間的抽象化は、時間とともに情報をより効率的に伝播することにより、複雑な環境における一般化と知識伝達を改善することを約束する。
オプション学習は当初、多くのオプションを同時に更新できる方法で定式化されていたが(Sutton, Precup & Singh, 1999)、最近の階層的強化学習アプローチの多くは、現在実行中のオプションを一度に1つのオプションだけ更新している。
我々は,既存の原始的行動選択と整合した全てのオプションを,追加の見積もりを導入することなく更新できるようにするため,深層強化学習の文脈において,オプション内学習を再考し拡張する。
したがって、我々の手法は、ほとんどの階層的なRLフレームワークで自然に適用することができる。
このアプローチとオプション発見のためのoption-criticアルゴリズムを組み合わせることで、さまざまなドメインのパフォーマンスとデータ効率が大幅に向上します。
関連論文リスト
- Matching options to tasks using Option-Indexed Hierarchical
Reinforcement Learning [20.85397773933171]
階層型学習(OI-HRL)のための新しいオプションインデックス化手法を提案する。
これにより、テスト時にゼロショットの一般化において、事前訓練されたオプションの大規模なライブラリを効果的に再利用できる。
我々は,一連のHRL問題に対して,選択肢や環境の表現を学習するメタ学習ループを開発する。
論文 参考訳(メタデータ) (2022-06-12T14:39:02Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Active Reinforcement Learning over MDPs [29.59790449462737]
本稿では,インスタンス選択による限られた資源の一般化効率を向上させるために,MDP上でのアクティブ強化学習(ARL)の枠組みを提案する。
既存のアプローチとは異なり、与えられたすべてのデータをトレーニングするのではなく、トレーニングデータを積極的に選択して使用しようとします。
論文 参考訳(メタデータ) (2021-08-05T00:18:11Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Learning Diverse Options via InfoMax Termination Critic [0.0]
我々は、強化学習において、再利用可能な時間的拡張行動や選択肢を自律的に学習する問題を考察する。
近年の相互情報に基づくスキル学習の成功に触発されて、より多様な選択肢がより再利用できるという仮説を立てた。
オプションと対応する状態遷移の間のMIを最大化することにより、オプションの勾配を学習する方法を提案する。
論文 参考訳(メタデータ) (2020-10-06T14:21:05Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。