論文の概要: Iterative Option Discovery for Planning, by Planning
- arxiv url: http://arxiv.org/abs/2310.01569v2
- Date: Fri, 22 Dec 2023 23:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:58:09.892016
- Title: Iterative Option Discovery for Planning, by Planning
- Title(参考訳): 計画による計画のための反復的オプション発見
- Authors: Kenny Young, Richard S. Sutton
- Abstract要約: オプションイテレーション(Option Iteration)と呼ばれるオプション発見に類似したアプローチを提案する。
任意の場所で検索結果にマッチするように訓練された単一の強力なポリシーを学ぶのではなく、オプションイテレーションは、各状態が遭遇するたびに、セット内の少なくとも1つのポリシーが、将来に向けて検索結果にマッチするように訓練された一連のオプションポリシーを学ぶ。
このようなローカルな強力なポリシーの集合を学習することで、より優れた選択肢がより良い検索結果に導かれるように、検索アルゴリズムをガイドすることができる。
- 参考スコア(独自算出の注目度): 15.731719079249814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discovering useful temporal abstractions, in the form of options, is widely
thought to be key to applying reinforcement learning and planning to
increasingly complex domains. Building on the empirical success of the Expert
Iteration approach to policy learning used in AlphaZero, we propose Option
Iteration, an analogous approach to option discovery. Rather than learning a
single strong policy that is trained to match the search results everywhere,
Option Iteration learns a set of option policies trained such that for each
state encountered, at least one policy in the set matches the search results
for some horizon into the future. Intuitively, this may be significantly easier
as it allows the algorithm to hedge its bets compared to learning a single
globally strong policy, which may have complex dependencies on the details of
the current state. Having learned such a set of locally strong policies, we can
use them to guide the search algorithm resulting in a virtuous cycle where
better options lead to better search results which allows for training of
better options. We demonstrate experimentally that planning using options
learned with Option Iteration leads to a significant benefit in challenging
planning environments compared to an analogous planning algorithm operating in
the space of primitive actions and learning a single rollout policy with Expert
Iteration.
- Abstract(参考訳): オプションという形で有用な時間的抽象化を見つけることは、ますます複雑なドメインに強化学習と計画を適用する上で鍵となると広く考えられている。
alphazeroで使用されるポリシ学習に対するエキスパートイテレーションアプローチの実証的成功に基づいて,オプション発見の類似的なアプローチであるoption iterationを提案する。
任意の場所で検索結果にマッチするように訓練された単一の強力なポリシーを学ぶのではなく、オプションイテレーションは、各状態が遭遇するたびに、セット内の少なくとも1つのポリシーが、将来に向けて検索結果にマッチするように訓練された一連のオプションポリシーを学ぶ。
直感的には、現在の状態の詳細に複雑な依存関係を持つ単一のグローバルな強いポリシーを学ぶよりも、アルゴリズムが賭けをヘッジできるため、これはかなり簡単かもしれない。
このようなローカルな強力なポリシーの集合を学習することで、より優れた選択肢がより良い検索結果に結びつき、より良い選択肢のトレーニングを可能にする、希少なサイクルをもたらす検索アルゴリズムをガイドすることができる。
実験により,オプションイテレーションで学習したオプションを用いたプランニングは,プリミティブアクションの空間で動作する類似の計画アルゴリズムと,エキスパートイテレーションによる単一ロールアウトポリシーの学習と比較して,計画環境に挑戦する上で大きなメリットをもたらすことが示された。
関連論文リスト
- Multi-Task Option Learning and Discovery for Stochastic Path Planning [27.384742641275228]
本稿では,長距離経路計画問題の幅広いクラスを確実かつ効率的に解決する問題に対処する。
提案手法では,提案したオプションを構成する高レベルパスだけでなく,ポリシによる有用なオプションも計算する。
このアプローチが実行可能性と解決可能性の強い保証をもたらすことを示す。
論文 参考訳(メタデータ) (2022-09-30T19:57:52Z) - Matching options to tasks using Option-Indexed Hierarchical
Reinforcement Learning [20.85397773933171]
階層型学習(OI-HRL)のための新しいオプションインデックス化手法を提案する。
これにより、テスト時にゼロショットの一般化において、事前訓練されたオプションの大規模なライブラリを効果的に再利用できる。
我々は,一連のHRL問題に対して,選択肢や環境の表現を学習するメタ学習ループを開発する。
論文 参考訳(メタデータ) (2022-06-12T14:39:02Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。