論文の概要: DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.15957v2
- Date: Wed, 04 Dec 2024 18:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:04:41.804338
- Title: DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning
- Title(参考訳): DynaMITE-RL: 時間的メタ強化学習の改善のための動的モデル
- Authors: Anthony Liang, Guy Tennenholtz, Chih-wei Hsu, Yinlam Chow, Erdem Bıyık, Craig Boutilier,
- Abstract要約: 本稿ではメタ強化学習(meta-RL)アプローチであるDynaMITE-RLを紹介する。
また,DynaMITE-RLは,サンプル効率と推論リターンにおいて,最先端のベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 18.55524171447195
- License:
- Abstract: We introduce DynaMITE-RL, a meta-reinforcement learning (meta-RL) approach to approximate inference in environments where the latent state evolves at varying rates. We model episode sessions - parts of the episode where the latent state is fixed - and propose three key modifications to existing meta-RL methods: consistency of latent information within sessions, session masking, and prior latent conditioning. We demonstrate the importance of these modifications in various domains, ranging from discrete Gridworld environments to continuous-control and simulated robot assistive tasks, demonstrating that DynaMITE-RL significantly outperforms state-of-the-art baselines in sample efficiency and inference returns.
- Abstract(参考訳): 本稿ではメタ強化学習(meta-RL)アプローチであるDynaMITE-RLを紹介する。
エピソードセッション(潜伏状態が固定されたエピソードの一部)をモデル化し、セッション内の潜伏情報の一貫性、セッションマスキング、先行潜伏条件付けという、既存のメタRLメソッドへの3つの重要な変更を提案する。
離散グリッドワールド環境から連続制御・シミュレーションロボット支援タスクに至るまで,様々な領域におけるこれらの変更の重要性を実証し,DynaMITE-RLがサンプル効率と推論リターンにおいて最先端のベースラインを著しく上回ることを示した。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Enhanced Meta Reinforcement Learning using Demonstrations in Sparse
Reward Environments [10.360491332190433]
Demonstrations を用いた Enhanced Meta-RL というアルゴリズムのクラスを開発する。
本稿では、EMRLDがRLと教師付き学習をオフラインデータ上で併用してメタポリティクスを生成する方法を示す。
また,EMRLDアルゴリズムは,様々なスパース報酬環境における既存手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2022-09-26T22:01:12Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。
MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文 参考訳(メタデータ) (2020-10-26T23:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。