Fugu-MT 論文翻訳(概要): DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning

論文の概要: DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.15957v2
Date: Wed, 04 Dec 2024 18:48:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.214005
Title: DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning
Title（参考訳）: DynaMITE-RL: 時間的メタ強化学習の改善のための動的モデル
Authors: Anthony Liang, Guy Tennenholtz, Chih-wei Hsu, Yinlam Chow, Erdem Bıyık, Craig Boutilier,
Abstract要約: 本稿ではメタ強化学習(meta-RL)アプローチであるDynaMITE-RLを紹介する。また,DynaMITE-RLは,サンプル効率と推論リターンにおいて,最先端のベースラインを著しく上回ることを示す。
参考スコア（独自算出の注目度）: 18.55524171447195
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce DynaMITE-RL, a meta-reinforcement learning (meta-RL) approach to approximate inference in environments where the latent state evolves at varying rates. We model episode sessions - parts of the episode where the latent state is fixed - and propose three key modifications to existing meta-RL methods: consistency of latent information within sessions, session masking, and prior latent conditioning. We demonstrate the importance of these modifications in various domains, ranging from discrete Gridworld environments to continuous-control and simulated robot assistive tasks, demonstrating that DynaMITE-RL significantly outperforms state-of-the-art baselines in sample efficiency and inference returns.
Abstract（参考訳）: 本稿ではメタ強化学習(meta-RL)アプローチであるDynaMITE-RLを紹介する。エピソードセッション(潜伏状態が固定されたエピソードの一部)をモデル化し、セッション内の潜伏情報の一貫性、セッションマスキング、先行潜伏条件付けという、既存のメタRLメソッドへの3つの重要な変更を提案する。離散グリッドワールド環境から連続制御・シミュレーションロボット支援タスクに至るまで,様々な領域におけるこれらの変更の重要性を実証し,DynaMITE-RLがサンプル効率と推論リターンにおいて最先端のベースラインを著しく上回ることを示した。

関連論文リスト

Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。 i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-09T06:26:02Z)
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文参考訳（メタデータ） (2025-02-26T10:16:57Z)
Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning [10.117626902557927]
Dyna-style off-policy model-based reinforcement learning (DMBRL)アルゴリズムは、合成状態遷移データを生成するための一連の技術である。本稿では,異なるベンチマーク環境におけるDMBRLアルゴリズムの適用時に観測された驚くべき性能差を同定し,検討する。
論文参考訳（メタデータ） (2024-12-18T20:25:04Z)
ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。 ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-10-28T05:29:38Z)
Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文参考訳（メタデータ） (2023-11-13T18:51:57Z)
RePo: Resilient Model-Based Reinforcement Learning by Regularizing Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文参考訳（メタデータ） (2023-08-31T18:43:04Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文参考訳（メタデータ） (2023-05-22T13:33:37Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Enhanced Meta Reinforcement Learning using Demonstrations in Sparse Reward Environments [10.360491332190433]
Demonstrations を用いた Enhanced Meta-RL というアルゴリズムのクラスを開発する。本稿では、EMRLDがRLと教師付き学習をオフラインデータ上で併用してメタポリティクスを生成する方法を示す。また,EMRLDアルゴリズムは,様々なスパース報酬環境における既存手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2022-09-26T22:01:12Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。 MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文参考訳（メタデータ） (2020-10-26T23:50:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。