論文の概要: Matching options to tasks using Option-Indexed Hierarchical
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.05750v1
- Date: Sun, 12 Jun 2022 14:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 07:29:55.124718
- Title: Matching options to tasks using Option-Indexed Hierarchical
Reinforcement Learning
- Title(参考訳): Option-Indexed Hierarchical Reinforcement Learning を用いたタスクのマッチングオプション
- Authors: Kushal Chauhan, Soumya Chatterjee, Akash Reddy, Balaraman Ravindran,
Pradeep Shenoy
- Abstract要約: 階層型学習(OI-HRL)のための新しいオプションインデックス化手法を提案する。
これにより、テスト時にゼロショットの一般化において、事前訓練されたオプションの大規模なライブラリを効果的に再利用できる。
我々は,一連のHRL問題に対して,選択肢や環境の表現を学習するメタ学習ループを開発する。
- 参考スコア(独自算出の注目度): 20.85397773933171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The options framework in Hierarchical Reinforcement Learning breaks down
overall goals into a combination of options or simpler tasks and associated
policies, allowing for abstraction in the action space. Ideally, these options
can be reused across different higher-level goals; indeed, such reuse is
necessary to realize the vision of a continual learning agent that can
effectively leverage its prior experience. Previous approaches have only
proposed limited forms of transfer of prelearned options to new task settings.
We propose a novel option indexing approach to hierarchical learning (OI-HRL),
where we learn an affinity function between options and the items present in
the environment. This allows us to effectively reuse a large library of
pretrained options, in zero-shot generalization at test time, by restricting
goal-directed learning to only those options relevant to the task at hand. We
develop a meta-training loop that learns the representations of options and
environments over a series of HRL problems, by incorporating feedback about the
relevance of retrieved options to the higher-level goal. We evaluate OI-HRL in
two simulated settings - the CraftWorld and AI2THOR environments - and show
that we achieve performance competitive with oracular baselines, and
substantial gains over a baseline that has the entire option pool available for
learning the hierarchical policy.
- Abstract(参考訳): Hierarchical Reinforcement Learningのオプションフレームワークは、全体的な目標をオプションや単純なタスクと関連するポリシーの組み合わせに分解し、アクション空間の抽象化を可能にします。
理想的には、これらのオプションは異なる高レベルな目標にまたがって再利用することができる。実際、このような再利用は、その事前の経験を効果的に活用できる連続学習エージェントのビジョンを実現するために必要である。
以前のアプローチでは、事前設定されたオプションを新しいタスク設定に移行する限定的な形式しか提案していない。
提案手法は階層型学習(OI-HRL)において,オプションと環境に存在する項目間の親和性関数を学習する手法である。
これにより、タスクに関連する選択肢のみにゴール指向学習を制限することで、事前訓練済みオプションの大規模なライブラリを、テスト時のゼロショット一般化で効果的に再利用することが可能になります。
我々は,検索した選択肢の高次目標との関連性に関するフィードバックを取り入れ,一連のHRL問題に対して選択肢と環境の表現を学習するメタ学習ループを開発する。
我々は、OI-HRLをCraftWorldとAI2THOR環境という2つのシミュレートされた設定で評価し、オラクルのベースラインと競合するパフォーマンスを実現し、階層的なポリシーを学ぶためのオプションプール全体を利用できるベースラインよりも大幅に向上したことを示す。
関連論文リスト
- Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。