論文の概要: DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2402.15957v1
- Date: Sun, 25 Feb 2024 02:36:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:11:55.703137
- Title: DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement
Learning
- Title(参考訳): DynaMITE-RL: 時間的メタ強化学習のための動的モデル
- Authors: Anthony Liang, Guy Tennenholtz, Chih-wei Hsu, Yinlam Chow, Erdem
B{\i}y{\i}k, Craig Boutilier
- Abstract要約: 本稿ではメタ強化学習(meta-RL)アプローチであるDynaMITE-RLを紹介する。
また,DynaMITE-RLは,サンプル効率と推論リターンにおいて,最先端のベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 23.40716692450924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DynaMITE-RL, a meta-reinforcement learning (meta-RL) approach to
approximate inference in environments where the latent state evolves at varying
rates. We model episode sessions - parts of the episode where the latent state
is fixed - and propose three key modifications to existing meta-RL methods:
consistency of latent information within sessions, session masking, and prior
latent conditioning. We demonstrate the importance of these modifications in
various domains, ranging from discrete Gridworld environments to
continuous-control and simulated robot assistive tasks, demonstrating that
DynaMITE-RL significantly outperforms state-of-the-art baselines in sample
efficiency and inference returns.
- Abstract(参考訳): 本稿ではメタ強化学習(meta-RL)アプローチであるDynaMITE-RLを紹介する。
エピソードセッション(潜伏状態が固定されたエピソードの一部)をモデル化し、セッション内の潜伏情報の一貫性、セッションマスキング、先行潜伏条件付けという、既存のメタRLメソッドへの3つの重要な変更を提案する。
分散グリッドワールド環境から連続制御やシミュレーションロボット支援タスクまで,様々な領域におけるこれらの修正の重要性を実証し,ダイナマイトrlがサンプル効率や推論リターンにおいて最先端のベースラインを大きく上回ることを示した。
関連論文リスト
- Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - MP3: Movement Primitive-Based (Re-)Planning Policy [22.732255155522928]
我々は,移動原始的計画政策(MP3)と呼ばれる新しい深層強化学習(RL)アプローチを導入する。
MP3は学習プロセス全体を通してスムーズな軌道の生成を可能にし、スパースや非マルコフの報酬から効果的に学習する。
論文 参考訳(メタデータ) (2023-06-22T08:11:32Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Enhanced Meta Reinforcement Learning using Demonstrations in Sparse
Reward Environments [10.360491332190433]
Demonstrations を用いた Enhanced Meta-RL というアルゴリズムのクラスを開発する。
本稿では、EMRLDがRLと教師付き学習をオフラインデータ上で併用してメタポリティクスを生成する方法を示す。
また,EMRLDアルゴリズムは,様々なスパース報酬環境における既存手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2022-09-26T22:01:12Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。
MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文 参考訳(メタデータ) (2020-10-26T23:50:30Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。