論文の概要: RAE-NWM: Navigation World Model in Dense Visual Representation Space
- arxiv url: http://arxiv.org/abs/2603.09241v1
- Date: Tue, 10 Mar 2026 06:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.094423
- Title: RAE-NWM: Navigation World Model in Dense Visual Representation Space
- Title(参考訳): RAE-NWM:Dense Visual Representation Spaceにおけるナビゲーションワールドモデル
- Authors: Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng,
- Abstract要約: 本稿では,高密度な視覚的表現空間におけるナビゲーションダイナミクスをモデル化するRepresentation Autoencoder-based Navigation World Model (RAE-NWM)を提案する。
連続的な遷移をモデル化するためにデカップリング拡散変圧器ヘッド(CDiT-DH)を用いた条件拡散変圧器を用い、生成中の動作注入強度を制御するために動的条件付けのための時間駆動ゲーティングモジュールを別々に導入する。
- 参考スコア(独自算出の注目度): 4.210599444301697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual navigation requires agents to reach goals in complex environments through perception and planning. World models address this task by simulating action-conditioned state transitions to predict future observations. Current navigation world models typically learn state evolution under actions within the compressed latent space of a Variational Autoencoder, where spatial compression often discards fine-grained structural information and hinders precise control. To better understand the propagation characteristics of different representations, we conduct a linear dynamics probe and observe that dense DINOv2 features exhibit stronger linear predictability for action-conditioned transitions. Motivated by this observation, we propose the Representation Autoencoder-based Navigation World Model (RAE-NWM), which models navigation dynamics in a dense visual representation space. We employ a Conditional Diffusion Transformer with Decoupled Diffusion Transformer head (CDiT-DH) to model continuous transitions, and introduce a separate time-driven gating module for dynamics conditioning to regulate action injection strength during generation. Extensive evaluations show that modeling sequential rollouts in this space improves structural stability and action accuracy, benefiting downstream planning and navigation.
- Abstract(参考訳): 視覚ナビゲーションでは、エージェントは知覚と計画を通じて複雑な環境の目標に到達する必要がある。
世界モデルは、将来の観測を予測するために行動条件付き状態遷移をシミュレートすることで、この課題に対処する。
現在のナビゲーションワールドモデルは、通常、変分オートコーダの圧縮潜在空間内での動作の下で状態の進化を学習し、空間圧縮はしばしば微細な構造情報を破棄し、正確な制御を妨げる。
異なる表現の伝搬特性をよりよく理解するために、線形ダイナミクスプローブを実施し、密度の高いDINOv2特徴が行動条件遷移に対して強い線形予測可能性を示すことを観察する。
本研究では,高密度な視覚表現空間におけるナビゲーションダイナミクスをモデル化するRepresentation Autoencoder-based Navigation World Model (RAE-NWM)を提案する。
連続的な遷移をモデル化するためにデカップリング拡散変圧器ヘッド(CDiT-DH)を用いた条件拡散変圧器を用い、生成中の動作注入強度を制御するために動的条件付けのための時間駆動ゲーティングモジュールを別々に導入する。
大規模な評価では、この領域における逐次ロールアウトのモデリングは、構造安定性と行動精度を改善し、下流の計画とナビゲーションの恩恵をもたらすことが示されている。
関連論文リスト
- Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文 参考訳(メタデータ) (2026-01-21T18:59:32Z) - Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments [54.23746358078753]
身体系は「流れのシンフォニー」として世界を経験する
ほとんどのニューラルネットワークの世界モデルは、この構造を無視し、データから同じ変換を繰り返し再学習します。
自己運動と外部物体の動きを1パラメータのリー群「フロー」として統一するフレームワーク「フロー同変世界モデル」を紹介する。
論文 参考訳(メタデータ) (2026-01-03T05:22:27Z) - SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models [42.814012901180774]
textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。
動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。
また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
論文 参考訳(メタデータ) (2025-09-19T02:41:37Z) - GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control [50.67481583744243]
実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。
車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
動作精度と空間認識の両面で既存のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-28T14:46:51Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - Data-driven low-dimensional dynamic model of Kolmogorov flow [0.0]
流れのダイナミクスを捉える低次モデル (ROM) はシミュレーションの計算コストの削減に重要である。
この研究は、フローのダイナミクスと特性を効果的にキャプチャする最小次元モデルのためのデータ駆動フレームワークを示す。
我々はこれをカオス的かつ断続的な行動からなる体制におけるコルモゴロフ流に適用する。
論文 参考訳(メタデータ) (2022-10-29T23:05:39Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。