論文の概要: WorldCompass: Reinforcement Learning for Long-Horizon World Models
- arxiv url: http://arxiv.org/abs/2602.09022v1
- Date: Mon, 09 Feb 2026 18:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.446476
- Title: WorldCompass: Reinforcement Learning for Long-Horizon World Models
- Title(参考訳): WorldCompass: 長期世界モデルの強化学習
- Authors: Zehan Wang, Tengfei Wang, Haiyu Zhang, Xuhui Zuo, Junta Wu, Haoyuan Wang, Wenqiang Sun, Zhenwei Wang, Chenjie Cao, Hengshuang Zhao, Chunchao Guo, Zhou Zhao,
- Abstract要約: この研究は、インタラクティブなビデオベースの世界モデルのための新しい強化学習(RL)フレームワークであるWorldを提示する。
本稿では,自己回帰ビデオ生成パラダイムに合わせた3つのコアイノベーションを紹介する。
様々なシナリオにおけるインタラクションの精度と視覚的忠実度を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 81.03997753254023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.
- Abstract(参考訳): この研究は、長期的なインタラクティブなビデオベースの世界モデルのための、新しい強化学習(RL)ポストトレーニングフレームワークであるWorldCompassを提示し、対話信号に基づいてより正確に、一貫して世界を探索することを可能にする。
世界モデルの探索を効果的に「操る」ために、自己回帰ビデオ生成パラダイムに合わせた3つの中心的革新を紹介します。
1) クリップレベルのロールアウト戦略: 単一ターゲットクリップで複数のサンプルを生成し評価し, ロールアウト効率を大幅に向上し, 微粒な報酬信号を提供する。
2) 補完リワード関数: 相互作用追従精度と視覚的品質の両方に報酬関数を設計し, 直接監督し, 報酬ハック行動を効果的に抑制する。
3) 効率的なRLアルゴリズム: モデルキャパシティを効率よく効果的に向上させるために, 様々な効率最適化と負の認識による微調整戦略を併用する。
SoTAのオープンソースワールドモデルWorldPlayの評価では、WorldCompassは様々なシナリオにおけるインタラクションの正確さと視覚的忠実度を大幅に改善する。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Co-Evolving Latent Action World Models [57.48921576959243]
学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。
本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。
世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
論文 参考訳(メタデータ) (2025-10-30T12:28:40Z) - Reinforcement Learning with Inverse Rewards for World Model Post-training [29.19830208692156]
ビデオワールドモデルにおける動作追跡を改善するために,逆回帰を用いた強化学習を提案する。
RLIRは、逆ダイナミクスモデルを用いて生成されたビデオから入力アクションを復元することにより、検証可能な報酬信号を導出する。
論文 参考訳(メタデータ) (2025-09-28T16:27:47Z) - Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。
政策とともに世界モデルを動的に適用する枠組みを提案する。
我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-05-19T20:14:33Z) - Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach [55.76249793590689]
Video-Enhanced Offline RL (VeoRL) は、インタラクティブな世界モデルを構築するためのモデルベースの手法である。
VeoRLは、ロボット操作、自律運転、オープンワールドビデオゲームにおける視覚制御タスクにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-10T00:54:12Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - GARNet: Global-Aware Multi-View 3D Reconstruction Network and the
Cost-Performance Tradeoff [10.8606881536924]
本稿では,各ブランチとグローバル間の相関関係を構築し,重み付け推論の包括的基盤を提供する,グローバルアウェアアテンションベースの融合手法を提案する。
ネットワークの能力を高めるために,ネットワーク全体の形状を監督する新たな損失関数を導入する。
ShapeNetの実験により,本手法が既存のSOTA法より優れていることを確認した。
論文 参考訳(メタデータ) (2022-11-04T07:45:19Z) - On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning [45.73223325256312]
最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。