論文の概要: Toward Task Generalization via Memory Augmentation in Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.01521v1
- Date: Mon, 03 Feb 2025 17:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:18.229776
- Title: Toward Task Generalization via Memory Augmentation in Meta-Reinforcement Learning
- Title(参考訳): メタ強化学習におけるメモリ拡張によるタスク一般化に向けて
- Authors: Kaixi Bao, Chenhao Li, Yarden As, Andreas Krause, Marco Hutter,
- Abstract要約: 強化学習(RL)では、エージェントは訓練中に遭遇したタスクと異なるタスクをうまくこなすのに苦労することが多い。
この制限は、多種多様な動的タスク設定におけるRLの広範な展開に課題をもたらす。
タスクの一般化を改善するためのメモリベースRLアプローチであるメモリ拡張を導入する。
- 参考スコア(独自算出の注目度): 43.69919534800985
- License:
- Abstract: In reinforcement learning (RL), agents often struggle to perform well on tasks that differ from those encountered during training. This limitation presents a challenge to the broader deployment of RL in diverse and dynamic task settings. In this work, we introduce memory augmentation, a memory-based RL approach to improve task generalization. Our approach leverages task-structured augmentations to simulate plausible out-of-distribution scenarios and incorporates memory mechanisms to enable context-aware policy adaptation. Trained on a predefined set of tasks, our policy demonstrates the ability to generalize to unseen tasks through memory augmentation without requiring additional interactions with the environment. Through extensive simulation experiments and real-world hardware evaluations on legged locomotion tasks, we demonstrate that our approach achieves zero-shot generalization to unseen tasks while maintaining robust in-distribution performance and high sample efficiency.
- Abstract(参考訳): 強化学習(RL)では、エージェントは訓練中に遭遇したタスクと異なるタスクをうまくこなすのに苦労することが多い。
この制限は、多種多様な動的タスク設定におけるRLの広範な展開に課題をもたらす。
本研究では,タスクの一般化を改善するためのメモリベースのRL手法であるメモリ拡張を提案する。
提案手法では,タスク構造化の強化を利用して,予測可能なアウト・オブ・ディストリビューションシナリオをシミュレートし,メモリ機構を組み込んで,コンテキスト対応のポリシー適応を実現する。
予め定義されたタスクセットに基づいて学習し,環境との相互作用を必要とせず,メモリ拡張による未確認タスクを一般化する能力を示す。
本研究は,足歩行タスクのシミュレーション実験と実世界のハードウェア評価を通じて,頑健な分配性能と高サンプリング効率を維持しつつ,目立たないタスクへのゼロショット一般化を実現することを実証する。
関連論文リスト
- Task-Aware Virtual Training: Enhancing Generalization in Meta-Reinforcement Learning for Out-of-Distribution Tasks [4.374837991804085]
Task-Aware Virtual Training (TAVT)は、トレーニングとアウト・オブ・ディストリビューション(OOD)シナリオの両方のタスク特性をキャプチャする新しいアルゴリズムである。
数値計算の結果,TAVT は様々な MuJoCo および MetaWorld 環境における OOD タスクの一般化を著しく促進することが示された。
論文 参考訳(メタデータ) (2025-02-05T02:31:50Z) - Decoupling Meta-Reinforcement Learning with Gaussian Task Contexts and
Skills [17.666749042008178]
本稿では,DCMRL(Decoupled Meta-Reinforcement Learning)というフレームワークを提案する。
DCMRLは、同じタスク内で同様のタスクコンテキストを取り出し、異なるタスクの異なるタスクコンテキストをプッシュします。
実験により、DCMRLは従来のメタRL法よりも有効であり、より一般化可能な事前経験を持つことが示された。
論文 参考訳(メタデータ) (2023-12-11T16:50:14Z) - The Role of Diverse Replay for Generalisation in Reinforcement Learning [7.399291598113285]
強化学習における探索戦略とリプレイバッファが一般化に与える影響について検討する。
トレーニング環境からより多様なデータの収集とトレーニングを行うことで、ゼロショットの一般化が新しいタスクに改善されることが示される。
論文 参考訳(メタデータ) (2023-06-09T07:48:36Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution [98.67737684075587]
部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である
開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。
実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-02-19T15:47:24Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。