Fugu-MT 論文翻訳(概要): Harmony World Models: Boosting Sample Efficiency for Model-based Reinforcement Learning

論文の概要: Harmony World Models: Boosting Sample Efficiency for Model-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.00344v1
Date: Sat, 30 Sep 2023 11:38:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 05:00:34.587633
Title: Harmony World Models: Boosting Sample Efficiency for Model-based Reinforcement Learning
Title（参考訳）: Harmony World Models: モデルベース強化学習におけるサンプル効率の向上
Authors: Haoyu Ma, Jialong Wu, Ningya Feng, Jianmin Wang, Mingsheng Long
Abstract要約: モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。本研究では,2つのタスク間の動的平衡を維持するために,ハーモニー・ワールド・モデル(Harmony World Models, HarmonyWM)を提案する。
参考スコア（独自算出の注目度）: 72.15904445435135
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-based reinforcement learning (MBRL) holds the promise of sample-efficient learning by utilizing a world model, which models how the environment works and typically encompasses components for two tasks: observation modeling and reward modeling. In this paper, through a dedicated empirical investigation, we gain a deeper understanding of the role each task plays in world models and uncover the overlooked potential of more efficient MBRL by harmonizing the interference between observation and reward modeling. Our key insight is that while prevalent approaches of explicit MBRL attempt to restore abundant details of the environment through observation models, it is difficult due to the environment's complexity and limited model capacity. On the other hand, reward models, while dominating in implicit MBRL and adept at learning task-centric dynamics, are inadequate for sample-efficient learning without richer learning signals. Capitalizing on these insights and discoveries, we propose a simple yet effective method, Harmony World Models (HarmonyWM), that introduces a lightweight harmonizer to maintain a dynamic equilibrium between the two tasks in world model learning. Our experiments on three visual control domains show that the base MBRL method equipped with HarmonyWM gains 10%-55% absolute performance boosts.
Abstract（参考訳）: モデルベース強化学習(MBRL)は、環境がどのように機能するかをモデル化し、典型的には2つのタスク、すなわち観察モデリングと報酬モデリングを包含する世界モデルを活用することで、サンプル効率の学習を約束する。本稿では,世界モデルにおいて各タスクが果たす役割を深く理解し,観察と報酬モデリングの干渉を調和させることにより,より効率的なMBRLの可能性を明らかにする。我々の重要な洞察は、明示的なMBRLの一般的なアプローチは、観測モデルを通して環境の豊富な詳細を復元しようとするが、環境の複雑さと限られたモデル容量のために困難であるということである。一方で、暗黙のmbrlで支配し、タスク中心のダイナミクスの学習に長けている報酬モデルは、よりリッチな学習信号なしでサンプル効率のよい学習には不十分である。これらの知見と発見を活かし、世界モデル学習における2つのタスク間の動的均衡を維持するための軽量調和器を導入する、単純で効果的なharmonywm(harmonywm)を提案する。 3つの視覚制御領域に対する実験により, HarmonyWM をベースとした MBRL 法では, 絶対性能が10%-55% 向上した。

関連論文リスト

DyMoDreamer: World Modeling with Dynamic Modulation [52.27044216359359]
深層強化学習(DRL)における重要なボトルネックはサンプル非効率である。動的変調機構を組み込んだ新しいアルゴリズムDyMoDreamerを導入し,動的特徴抽出の改善と時間情報の充実を図る。実験によると、DyMoDreamer は Atari 100$k ベンチマークに新しい最先端のスコアをセットし、平均156.6$% の人間正規化スコアを設定できる。
論文参考訳（メタデータ） (2025-09-29T13:54:42Z)
Accelerating Model-Based Reinforcement Learning with State-Space World Models [18.71404724458449]
強化学習(Reinforcement Learning, RL)は、ロボット学習における強力なアプローチである。しかし、モデルフリーRL(MFRL)は、制御ポリシーをうまく学習するために、多数の環境相互作用を必要とする。状態空間世界モデルを用いたモデルベースRLの高速化手法を提案する。
論文参考訳（メタデータ） (2025-02-27T15:05:25Z)
Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文参考訳（メタデータ） (2024-06-01T16:29:03Z)
Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文参考訳（メタデータ） (2024-05-10T06:28:42Z)
Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。 CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文参考訳（メタデータ） (2024-01-23T05:43:15Z)
ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文参考訳（メタデータ） (2023-12-14T15:53:07Z)
Leveraging World Model Disentanglement in Value-Based Multi-Agent Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文参考訳（メタデータ） (2023-09-08T22:12:43Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
MoDem: Accelerating Visual Model-Based Reinforcement Learning with Demonstrations [36.44386146801296]
サンプルの低さは、現実世界のアプリケーションに深層強化学習(RL)アルゴリズムをデプロイする上で、依然として最大の課題である。モデルベースRLのサンプル効率を劇的に向上させることができるのは,ごく少数のデモンストレーションのみである。本研究では,3つの複雑なビジュオモータ制御領域を実験的に検討し,スパース報酬タスクの完了に150%-250%成功していることを確認した。
論文参考訳（メタデータ） (2022-12-12T04:28:50Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Model-Invariant State Abstractions for Model-Based Reinforcement Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文参考訳（メタデータ） (2021-02-19T10:37:54Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。