論文の概要: Hierarchical Meta-Reinforcement Learning via Automated Macro-Action Discovery
- arxiv url: http://arxiv.org/abs/2412.11930v1
- Date: Mon, 16 Dec 2024 16:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:13.890758
- Title: Hierarchical Meta-Reinforcement Learning via Automated Macro-Action Discovery
- Title(参考訳): マクロ・アクションの自動発見による階層的メタ強化学習
- Authors: Minjae Cho, Chuangchuang Sun,
- Abstract要約: 複雑なタスクや高次元タスクにまたがってパフォーマンスポリシーを学ぶことは依然として困難である。
本稿では,1)タスク表現の学習,2)タスクに依存しないマクロアクションの自動発見,3)プリミティブアクションの学習という3つの階層レベルの新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 4.0847743592744905
- License:
- Abstract: Meta-Reinforcement Learning (Meta-RL) enables fast adaptation to new testing tasks. Despite recent advancements, it is still challenging to learn performant policies across multiple complex and high-dimensional tasks. To address this, we propose a novel architecture with three hierarchical levels for 1) learning task representations, 2) discovering task-agnostic macro-actions in an automated manner, and 3) learning primitive actions. The macro-action can guide the low-level primitive policy learning to more efficiently transition to goal states. This can address the issue that the policy may forget previously learned behavior while learning new, conflicting tasks. Moreover, the task-agnostic nature of the macro-actions is enabled by removing task-specific components from the state space. Hence, this makes them amenable to re-composition across different tasks and leads to promising fast adaptation to new tasks. Also, the prospective instability from the tri-level hierarchies is effectively mitigated by our innovative, independently tailored training schemes. Experiments in the MetaWorld framework demonstrate the improved sample efficiency and success rate of our approach compared to previous state-of-the-art methods.
- Abstract(参考訳): メタ強化学習(Meta-RL)は、新しいテストタスクへの迅速な適応を可能にする。
最近の進歩にもかかわらず、複数の複雑で高次元のタスクにまたがるパフォーマンスポリシーを学ぶことは依然として困難である。
これを解決するために,3つの階層レベルを持つ新しいアーキテクチャを提案する。
1)タスク表現の学習
2)タスク非依存のマクロアクションを自動で発見し、
3)原始的な行動を学ぶこと。
マクロアクションは、低レベルのプリミティブなポリシー学習を導くことで、目標状態へのより効率的な移行を可能にします。
これは、新しい、矛盾するタスクを学習しながら、前もって学んだ振る舞いを忘れてしまう可能性のある問題に対処できる。
さらに、タスク固有のコンポーネントを状態空間から取り除くことにより、マクロアクションのタスク非依存性を実現する。
これにより、異なるタスクにまたがって再構成が可能となり、新しいタスクに迅速に適応することが可能になる。
また、三階層構造からの予測的不安定性は、我々の革新的で独自に調整されたトレーニングスキームによって効果的に緩和される。
MetaWorldフレームワークの実験は、従来の最先端手法と比較して、我々のアプローチのサンプル効率と成功率の改善を実証している。
関連論文リスト
- Meta-Learning with Heterogeneous Tasks [42.695853959923625]
HeTRoM(Heterogeneous Tasks Robust Meta-learning)
双方向最適化に基づく効率的な反復最適化アルゴリズム
その結果,提案手法の柔軟性が示され,多様なタスク設定に適応できることがわかった。
論文 参考訳(メタデータ) (2024-10-24T16:32:23Z) - Latent Plans for Task-Agnostic Offline Reinforcement Learning [32.938030244921755]
本研究では,高次元カメラ観測からタスク非依存のロングホライゾンポリシーを学習するための新しい階層的アプローチを提案する。
我々の定式化によって、未確認のスキルの組み合わせを生産し、潜伏したスキルを"ステッチ"することで、時間的に拡張された目標を達成することが可能であることが示される。
実世界の25の異なる操作タスクに対するマルチタスクビズモータポリシーも学習し、模倣学習とオフライン強化学習の両方に優れています。
論文 参考訳(メタデータ) (2022-09-19T12:27:15Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - CoMPS: Continual Meta Policy Search [113.33157585319906]
逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。
CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の継続的な学習や外部のメタ強化手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-12-08T18:53:08Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Automated Relational Meta-learning [95.02216511235191]
本稿では,クロスタスク関係を自動的に抽出し,メタ知識グラフを構築する自動リレーショナルメタ学習フレームワークを提案する。
我々は,2次元玩具の回帰と少数ショット画像分類に関する広範な実験を行い,ARMLが最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-03T07:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。