論文の概要: DyMoDreamer: World Modeling with Dynamic Modulation
- arxiv url: http://arxiv.org/abs/2509.24804v1
- Date: Mon, 29 Sep 2025 13:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.028749
- Title: DyMoDreamer: World Modeling with Dynamic Modulation
- Title(参考訳): DyMoDreamer: 動的変調による世界モデリング
- Authors: Boxuan Zhang, Runqing Wang, Wei Xiao, Weipu Zhang, Jian Sun, Gao Huang, Jie Chen, Gang Wang,
- Abstract要約: 深層強化学習(DRL)における重要なボトルネックはサンプル非効率である。
動的変調機構を組み込んだ新しいアルゴリズムDyMoDreamerを導入し,動的特徴抽出の改善と時間情報の充実を図る。
実験によると、DyMoDreamer は Atari 100$k ベンチマークに新しい最先端のスコアをセットし、平均156.6$% の人間正規化スコアを設定できる。
- 参考スコア(独自算出の注目度): 52.27044216359359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A critical bottleneck in deep reinforcement learning (DRL) is sample inefficiency, as training high-performance agents often demands extensive environmental interactions. Model-based reinforcement learning (MBRL) mitigates this by building world models that simulate environmental dynamics and generate synthetic experience, improving sample efficiency. However, conventional world models process observations holistically, failing to decouple dynamic objects and temporal features from static backgrounds. This approach is computationally inefficient, especially for visual tasks where dynamic objects significantly influence rewards and decision-making performance. To address this, we introduce DyMoDreamer, a novel MBRL algorithm that incorporates a dynamic modulation mechanism to improve the extraction of dynamic features and enrich the temporal information. DyMoDreamer employs differential observations derived from a novel inter-frame differencing mask, explicitly encoding object-level motion cues and temporal dynamics. Dynamic modulation is modeled as stochastic categorical distributions and integrated into a recurrent state-space model (RSSM), enhancing the model's focus on reward-relevant dynamics. Experiments demonstrate that DyMoDreamer sets a new state-of-the-art on the Atari $100$k benchmark with a $156.6$\% mean human-normalized score, establishes a new record of $832$ on the DeepMind Visual Control Suite, and gains a $9.5$\% performance improvement after $1$M steps on the Crafter benchmark. Our code is released at https://github.com/Ultraman-Tiga1/DyMoDreamer.
- Abstract(参考訳): 深層強化学習(DRL)における重要なボトルネックはサンプル非効率である。
モデルベース強化学習(MBRL)は、環境力学をシミュレートし、合成経験を生成し、サンプル効率を向上させる世界モデルを構築することでこれを緩和する。
しかし、従来の世界モデルは、動的対象と時間的特徴を静的な背景から切り離すことができず、観察を一様に処理する。
このアプローチは計算的に非効率であり、特に動的対象が報酬や意思決定のパフォーマンスに著しく影響を及ぼす視覚的タスクに対して有効である。
そこで我々はDyMoDreamerを提案する。DyMoDreamerは動的変調機構を組み込んだ新しいMBRLアルゴリズムである。
DyMoDreamerは、新しいフレーム間差分マスクから派生した微分観測を用いて、オブジェクトレベルの動きキューと時間ダイナミクスを明示的に符号化する。
動的変調は確率的カテゴリー分布としてモデル化され、リカレント状態空間モデル(RSSM)に統合される。
実験によると、DyMoDreamerは、Atari 100$kベンチマークに156.6$\%の平均的な正規化スコアをセットし、DeepMind Visual Control Suiteで832$という新しい記録を確立し、Crafterベンチマークの1Mステップで9.5$\%のパフォーマンス改善を達成した。
私たちのコードはhttps://github.com/Ultraman-Tiga1/DyMoDreamer.comで公開されています。
関連論文リスト
- IONext: Unlocking the Next Era of Inertial Odometry [24.137981640306034]
我々は,CNNを用いた新しい慣性眼振背骨, Next Era of Inertial Odometry (IONext) を提案する。
IONextは、最先端(SOTA)トランスフォーマーとCNNベースのメソッドを一貫して上回っている。
例えばRNINデータセットでは、IONextは代表モデルのiMOTと比較して平均ATEを10%、平均RTEを12%削減する。
論文 参考訳(メタデータ) (2025-07-23T00:09:36Z) - SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、新しいモデルに基づく強化学習アルゴリズムである。
画素入力から教師なしの方法でオブジェクト中心のダイナミックスモデルを学習する。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary
Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。
私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。
複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文 参考訳(メタデータ) (2021-06-08T16:03:50Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。