論文の概要: AstraNav-World: World Model for Foresight Control and Consistency
- arxiv url: http://arxiv.org/abs/2512.21714v1
- Date: Thu, 25 Dec 2025 15:31:24 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:58:06.294204
- Title: AstraNav-World: World Model for Foresight Control and Consistency
- Title(参考訳): AstraNav-World: 予測制御と一貫性のための世界モデル
- Authors: Junjun Hu, Jintao Chen, Haochen Bai, Minghua Luo, Shichao Xie, Ziyi Chen, Fei Liu, Zedong Chu, Xinda Xue, Botao Ren, Xiaolong Wu, Mu Xu, Shanghang Zhang,
- Abstract要約: ダイナミックな環境での身体的ナビゲーションは、世界がどのように進化し、どのように行動が時間とともに広がるかを正確に予測する必要がある。
AstraNav-Worldは、未来の視覚状態とアクションシーケンスを共同で推論するエンド・ツー・エンドの世界モデルである。
本フレームワークは,拡散型ビデオジェネレータとビジョン言語ポリシーを統合し,同期ロールアウトを実現する。
- 参考スコア(独自算出の注目度): 40.07910402326578
- License:
- Abstract: Embodied navigation in open, dynamic environments demands accurate foresight of how the world will evolve and how actions will unfold over time. We propose AstraNav-World, an end-to-end world model that jointly reasons about future visual states and action sequences within a unified probabilistic framework. Our framework integrates a diffusion-based video generator with a vision-language policy, enabling synchronized rollouts where predicted scenes and planned actions are updated simultaneously. Training optimizes two complementary objectives: generating action-conditioned multi-step visual predictions and deriving trajectories conditioned on those predicted visuals. This bidirectional constraint makes visual predictions executable and keeps decisions grounded in physically consistent, task-relevant futures, mitigating cumulative errors common in decoupled "envision-then-plan" pipelines. Experiments across diverse embodied navigation benchmarks show improved trajectory accuracy and higher success rates. Ablations confirm the necessity of tight vision-action coupling and unified training, with either branch removal degrading both prediction quality and policy reliability. In real-world testing, AstraNav-World demonstrated exceptional zero-shot capabilities, adapting to previously unseen scenarios without any real-world fine-tuning. These results suggest that AstraNav-World captures transferable spatial understanding and planning-relevant navigation dynamics, rather than merely overfitting to simulation-specific data distribution. Overall, by unifying foresight vision and control within a single generative model, we move closer to reliable, interpretable, and general-purpose embodied agents that operate robustly in open-ended real-world settings.
- Abstract(参考訳): オープンでダイナミックな環境での身体的なナビゲーションは、世界がどのように進化し、どのように行動が時間とともに広がるかを正確に予測する必要がある。
AstraNav-Worldは、将来の視覚状態とアクションシーケンスを統合確率的枠組み内で共同で推論するエンド・ツー・エンドの世界モデルである。
本フレームワークは,拡散型映像生成装置と視覚言語ポリシーを統合し,予測されたシーンと計画されたアクションを同時に更新する同時ロールアウトを可能にする。
トレーニングは2つの補完的な目的を最適化する: アクション条件付き多段階視覚予測の生成と、それらの予測された視覚に条件付けられた軌道の導出である。
この双方向の制約は、視覚的予測を実行可能とし、物理的に一貫したタスク関連の未来に根ざした決定を保ち、分離された「ビジョン・then-plan」パイプラインで一般的な累積誤差を緩和する。
様々な実施されたナビゲーションベンチマークによる実験では、軌道の精度が向上し、成功率が向上した。
アブレーションは、厳密なビジョン・アクション・カップリングと統合トレーニングの必要性を確認し、分岐除去は予測品質とポリシー信頼性の両方を劣化させる。
実世界のテストでは、AstraNav-Worldは例外的なゼロショット機能を示し、実世界の微調整をせずに、これまで見つからなかったシナリオに適応した。
これらの結果は、AstraNav-Worldが単にシミュレーション固有のデータ分布に過度に適合するのではなく、伝達可能な空間理解と計画関連ナビゲーションダイナミクスを捉えていることを示唆している。
全体として、単一の生成モデル内での視覚と制御を統一することにより、我々は、オープンエンドの現実世界環境で堅牢に動作する信頼性、解釈可能、汎用的なエンボディエージェントに近づきます。
関連論文リスト
- ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - GoIRL: Graph-Oriented Inverse Reinforcement Learning for Multimodal Trajectory Prediction [35.36975133932852]
周囲のエージェントの軌道予測は自動運転の課題である。
本稿では,ベクトル化された文脈表現を備えたIRLベースの予測器であるグラフ指向逆強化学習フレームワークを提案する。
提案手法は,大規模Argoverse & nuScenesモーション予測ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-26T09:46:53Z) - STGDPM:Vessel Trajectory Prediction with Spatio-Temporal Graph Diffusion Probabilistic Model [0.0]
船舶軌道予測は、海上交通の安全を確保し、衝突を避けるために重要な要素である。
船舶の挙動に固有の不確実性があるため、軌道予測システムは将来的な運動状態を正確にモデル化するためのマルチモーダルなアプローチを採用する必要がある。
本稿では, 容器の状態に依存する従来の集約型手法を置き換え, 動的グラフとしての相互作用のモデル化を提案する。
論文 参考訳(メタデータ) (2025-03-11T05:50:27Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Spatio-Temporal Graph Dual-Attention Network for Multi-Agent Prediction
and Tracking [23.608125748229174]
異種エージェントを含む多エージェント軌道予測のための汎用生成ニューラルシステムを提案する。
提案システムは, 軌道予測のための3つのベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-02-18T02:25:35Z) - Social-WaGDAT: Interaction-aware Trajectory Prediction via Wasserstein
Graph Double-Attention Network [29.289670231364788]
本稿では,マルチエージェント軌道予測のためのジェネリック生成ニューラルシステムを提案する。
また、車両軌道予測に効率的なキネマティック拘束層を応用した。
提案システムは,軌道予測のための3つの公開ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-02-14T20:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。