論文の概要: GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment
- arxiv url: http://arxiv.org/abs/2512.01952v1
- Date: Mon, 01 Dec 2025 18:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.007928
- Title: GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment
- Title(参考訳): GrndCtrl:自己監督型リワードアライメントによる世界モデル構築
- Authors: Haoyang He, Jay Patrikar, Dong-Ki Kim, Max Smith, Daniel McGann, Ali-akbar Agha-mohammadi, Shayegan Omidshafiei, Sebastian Scherer,
- Abstract要約: 本稿では,自己指導型ポストトレーニングフレームワークであるReinforcement Learning with World Grounding(RLWG)を紹介する。
このフレームワークをGrndCtrlでインスタンス化する。GrndCtrlは、グループ相対ポリシー最適化(GRPO)に基づく報酬整合型適応手法で、安定な軌道の維持、一貫した幾何、エンボディナビゲーションのための信頼性のあるロールアウトを行う世界モデルを生成する。
- 参考スコア(独自算出の注目度): 16.343768407636322
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in video world modeling have enabled large-scale generative models to simulate embodied environments with high visual fidelity, providing strong priors for prediction, planning, and control. Yet, despite their realism, these models often lack geometric grounding, limiting their use in navigation tasks that require spatial coherence and long-horizon stability. We introduce Reinforcement Learning with World Grounding (RLWG), a self-supervised post-training framework that aligns pretrained world models with a physically verifiable structure through geometric and perceptual rewards. Analogous to reinforcement learning from verifiable feedback (RLVR) in language models, RLWG can use multiple rewards that measure pose cycle-consistency, depth reprojection, and temporal coherence. We instantiate this framework with GrndCtrl, a reward-aligned adaptation method based on Group Relative Policy Optimization (GRPO), yielding world models that maintain stable trajectories, consistent geometry, and reliable rollouts for embodied navigation. Like post-training alignment in large language models, GrndCtrl leverages verifiable rewards to bridge generative pretraining and grounded behavior, achieving superior spatial coherence and navigation stability over supervised fine-tuning in outdoor environments.
- Abstract(参考訳): ビデオワールドモデリングの最近の進歩により、大規模な生成モデルにより、高い視覚的忠実度でエンボディ環境をシミュレートすることができ、予測、計画、制御の強力な先駆者となっている。
しかし、現実主義にもかかわらず、これらのモデルは幾何学的な接地を欠き、空間的コヒーレンスと長い水平安定性を必要とするナビゲーションタスクでの使用を制限している。
本稿では,自己指導型ポストトレーニングフレームワークであるReinforcement Learning with World Grounding(RLWG)を紹介する。
言語モデルにおける検証可能なフィードバック(RLVR)からの強化学習と類似して、RLWGはサイクル一貫性、深さ再投影、時間的コヒーレンスを測定する複数の報酬を使用することができる。
このフレームワークをGrndCtrlでインスタンス化する。GrndCtrlは、グループ相対ポリシー最適化(GRPO)に基づく報酬整合型適応手法で、安定な軌道の維持、一貫した幾何、エンボディナビゲーションのための信頼性のあるロールアウトを行う世界モデルを生成する。
GrndCtrlは、大規模な言語モデルのトレーニング後のアライメントと同様に、生成前訓練と接地行動のブリッジに検証可能な報酬を活用し、屋外環境における教師付き微調整よりも優れた空間コヒーレンスとナビゲーション安定性を実現する。
関連論文リスト
- HybridWorldSim: A Scalable and Controllable High-fidelity Simulator for Autonomous Driving [59.55918581964678]
HybridWorldSimは、静的バックグラウンドのためのマルチトラバースニューラルネットワーク再構成と、動的エージェントの生成モデルを統合するハイブリッドシミュレーションフレームワークである。
我々は、様々な都市をまたがる幅広いルートや環境条件をキャプチャーする、新しいマルチトラバースデータセットMIRRORをリリースする。
論文 参考訳(メタデータ) (2025-11-27T07:53:16Z) - Clone Deterministic 3D Worlds with Geometrically-Regularized World Models [16.494281967592745]
エージェントが複雑でダイナミックな設定で効果的に思考、計画、理性を実現するためには、世界モデルが不可欠である。
急速な進歩にもかかわらず、現在の世界モデルは、長い地平線上で不安定で劣化している。
本稿では, 自然な知覚軌道に沿った連続点が潜在表現空間に近接しているような幾何学的正規化世界モデル(GRWM)を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:56:43Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - TARDIS STRIDE: A Spatio-Temporal Road Image Dataset and World Model for Autonomy [44.85881816317044]
本研究では,360度パノラマ画像を相互接続した観測,状態,行動ノードに変換する方法を示す。
我々は、このデータセットをトランスフォーマーベースの生成ワールドモデルであるTARDISを介してベンチマークする。
我々は、制御可能な画像合成、命令追従、自律的自己制御、最先端のジオレファレンスなど、さまざまなエージェントタスクにおいて、堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-06-12T21:08:11Z) - GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control [50.67481583744243]
実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。
車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
動作精度と空間認識の両面で既存のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-28T14:46:51Z) - RLVR-World: Training World Models with Reinforcement Learning [41.04369775904968]
検証可能な報酬で強化学習を活用する統合フレームワークであるRLVR-Worldを提案する。
我々は,テキストゲーム,Webナビゲーション,ロボット操作など,ドメイン間の言語およびビデオベースの世界モデルにおいて,大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-05-20T05:02:53Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。