論文の概要: ResWM: Residual-Action World Model for Visual RL
- arxiv url: http://arxiv.org/abs/2603.11110v1
- Date: Wed, 11 Mar 2026 11:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.519367
- Title: ResWM: Residual-Action World Model for Visual RL
- Title(参考訳): ResWM:Residual-Action World Model for Visual RL
- Authors: Jseen Zhang, Gabriel Adineera, Jinzhou Tan, Jinoh Kim,
- Abstract要約: 生の視覚観測から予測的世界モデルを学ぶことは強化学習(RL)の中心的課題である
ResWM(Residual-Action World Model、Residual-Action World Model)は、制御変数を絶対作用から残留作用に再構成する新しいフレームワークである。
ResWMはより安定的でエネルギー効率のよい行動軌跡を生み出す。
- 参考スコア(独自算出の注目度): 0.06999740786886534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning predictive world models from raw visual observations is a central challenge in reinforcement learning (RL), especially for robotics and continuous control. Conventional model-based RL frameworks directly condition future predictions on absolute actions, which makes optimization unstable: the optimal action distributions are task-dependent, unknown a priori, and often lead to oscillatory or inefficient control. To address this, we introduce the Residual-Action World Model (ResWM), a new framework that reformulates the control variable from absolute actions to residual actions -- incremental adjustments relative to the previous step. This design aligns with the inherent smoothness of real-world control, reduces the effective search space, and stabilizes long-horizon planning. To further strengthen the representation, we propose an Observation Difference Encoder that explicitly models the changes between adjacent frames, yielding compact latent dynamics that are naturally coupled with residual actions. ResWM is integrated into a Dreamer-style latent dynamics model with minimal modifications and no extra hyperparameters. Both imagination rollouts and policy optimization are conducted in the residual-action space, enabling smoother exploration, lower control variance, and more reliable planning. Empirical results on the DeepMind Control Suite demonstrate that ResWM achieves consistent improvements in sample efficiency, asymptotic returns, and control smoothness, significantly surpassing strong baselines such as Dreamer and TD-MPC. Beyond performance, ResWM produces more stable and energy-efficient action trajectories, a property critical for robotic systems deployed in real-world environments. These findings suggest that residual action modeling provides a simple yet powerful principle for bridging algorithmic advances in RL with the practical requirements of robotics.
- Abstract(参考訳): 生の視覚観測から予測的世界モデルを学ぶことは、特にロボット工学と連続制御において強化学習(RL)における中心的な課題である。
従来のモデルベースのRLフレームワークは、絶対的なアクションに関する将来の予測を直接条件にしているため、最適化は不安定である。
これを解決するために、絶対作用から残留作用へ制御変数を再構成する新しいフレームワークResWM(Residual-Action World Model)を導入する。
この設計は、現実世界の制御の本質的な滑らかさと一致し、効率的な探索空間を減らし、長期計画の安定化を図っている。
この表現をさらに強化するために,隣接するフレーム間の変化を明示的にモデル化する観測差分エンコーダを提案する。
ResWMは最小限の変更と余分なハイパーパラメータの無いドリーマースタイルの潜在力学モデルに統合されている。
残作用空間におけるイマジネーションロールアウトとポリシー最適化の両方が実施され、よりスムーズな探索、制御分散の低減、信頼性の高い計画が可能になる。
DeepMind Control Suiteの実証的な結果は、ResWMがサンプル効率、漸近的リターン、制御のスムーズさを一貫した改善を実現し、DreamerやTD-MPCのような強力なベースラインをはるかに上回っていることを示している。
パフォーマンス以外にも、ResWMはより安定的でエネルギー効率のよいアクショントラジェクトリを生産している。
これらの結果から, 残留動作モデリングは, ロボット工学の実践的要件に則って, RLにおけるアルゴリズムの進歩を橋渡しする上で, 単純かつ強力な原理となっていることが示唆された。
関連論文リスト
- DDP-WM: Disentangled Dynamics Prediction for Efficient World Models [79.53092337527382]
本稿では,DDP-WMについて紹介する。DDP-WMはDDP-WM(Distangled Dynamics Prediction)の原理に基づく新しい世界モデルである。
DDP-WMは、効率的な履歴処理と動的ローカライゼーションを統合したアーキテクチャにより、この分解を実現する。
実験により、DDP-WMは様々なタスクにおいて、大幅な効率と性能を達成することが示された。
論文 参考訳(メタデータ) (2026-02-02T08:04:25Z) - Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems [38.4555621948915]
Prismatic World Model (PRISM-WM) は複雑なハイブリッド力学を構成可能なプリミティブに分解するように設計されている。
PRISM-WMは系力学におけるシャープモード遷移を正確にモデル化することでロールアウトドリフトを著しく低減する。
論文 参考訳(メタデータ) (2025-12-09T09:40:34Z) - ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - Adapting World Models with Latent-State Dynamics Residuals [10.892848566977369]
ReDRAWは、シミュレーションで事前訓練され、ターゲット環境に調整された潜在状態自己回帰世界モデルである。
これにより、RLエージェントを、修正された動的条件の下で想像上のロールアウトで最適化し、現実世界にデプロイすることが可能になる。
論文 参考訳(メタデータ) (2025-04-03T03:41:30Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - A Reinforcement Learning-based Economic Model Predictive Control
Framework for Autonomous Operation of Chemical Reactors [0.5735035463793008]
本研究では,非線形系のオンラインモデルパラメータ推定のためのEMPCとRLを統合するための新しいフレームワークを提案する。
最先端のRLアルゴリズムとEMPCスキームを最小限の修正で使用できます。
論文 参考訳(メタデータ) (2021-05-06T13:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。