論文の概要: X-Foresight: A Joint Vision-Action Causal Forecasting Network via Predictive World Modeling
- arxiv url: http://arxiv.org/abs/2605.24892v1
- Date: Sun, 24 May 2026 06:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.494933
- Title: X-Foresight: A Joint Vision-Action Causal Forecasting Network via Predictive World Modeling
- Title(参考訳): X-Foresight:予測世界モデリングによる共同視覚行動因果予測ネットワーク
- Authors: Baolu Li, Jingyu Qian, Rui Guo, Yilun Chen, Hanpeng Liu, Yuan Lin, Junhong Zhou, Ruixin Liu, Willow Yang, Yutong Zheng, Zhenli Zhang, Tenglong, Gu, Zhuangzhuang Ding, Pengkun Zheng, Yu Zhang, Xianming Liu,
- Abstract要約: 我々は,ビジョン・ランゲージ・アクション・アーキテクチャに直接統合された予測的世界モデルであるX-Foresightを紹介する。
隣接するフレームではなく意味的に離れたチャンクを予測することで、X-Foresightは自明な外挿を逃れる。
総合的な実験により、X-Foresightは計画性能においてVLAベースラインを大幅に上回っていることが示された。
- 参考スコア(独自算出の注目度): 47.54820149491433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physical world knowledge resides mainly in videos. Equipping Vision-Language-Action (VLA) models with such knowledge is fundamental for safe and generalizable planning. Predictive world modeling enables VLA to internalize physical dynamics and long-term causality by predicting future video from past observations. However, naive next-frame prediction faces two challenges: 1) unlike semantically distinct text tokens, video tokens are low-entropy and redundant, causing prediction to degenerate into trivial extrapolation. 2) world modeling poses a temporal dilemma: dense prediction captures instantaneous dynamics, but cannot efficiently model long-horizon causality. To learn world knowledge effectively, we introduce X-Foresight, a predictive world model integrated directly into the VLA architecture to jointly learn world modeling and real-time action control. At its core lies a long-horizon chunk-wise auto-regressive strategy that addresses both challenges: by predicting semantically distant chunks rather than adjacent frames, it escapes trivial extrapolation, while preserving dense intra-chunk frames for instantaneous dynamics and sparse inter-chunk transitions for long-term causality. A curriculum learning schedule progressively extends prediction horizons and stabilizes long-horizon training. To capture long-term causality effectively, we present temporal importance sampling, which concentrates supervision on safety-critical chunks identified by ego-motion and behavioral signals. We further delegate photorealistic synthesis to a diffusion-based multi-view renderer, improving photorealistic appearance. Comprehensive experiments demonstrate that X-Foresight significantly outperforms VLA baselines in planning performance while maintaining strong generative fidelity, establishing a robust paradigm for world-knowledge-driven autonomous systems.
- Abstract(参考訳): 物理世界の知識は主にビデオに存在している。
ビジョン・ランゲージ・アクション(VLA)モデルをそのような知識で取得することは、安全で一般化可能な計画に不可欠である。
予測的世界モデリングにより、VLAは過去の観測から将来のビデオを予測することで、物理力学と長期因果関係を内部化することができる。
しかし、素早い次世代の予測は2つの課題に直面している。
1) 意味的に異なるテキストトークンとは異なり、ビデオトークンはエントロピーが低く、冗長であり、デジェネレーションは自明な外挿になる。
2)世界モデリングは時相ジレンマを呈する:密集予測は瞬時ダイナミクスを捉えるが、長距離因果関係を効率的にモデル化することはできない。
我々は,世界知識を効果的に学習するために,VLAアーキテクチャに直接統合された予測的世界モデルであるX-Foresightを導入し,世界モデリングとリアルタイム行動制御を共同で学習する。
隣接するフレームではなく、意味的に離れたチャンクを予測することによって、簡単な外挿から逃れると同時に、瞬間的ダイナミクスのための密度の高いチャンク内フレームと、長期的因果関係のためのスパースチャンク間遷移を保存する。
カリキュラム学習スケジュールは、予測地平線を徐々に拡張し、長期訓練を安定化させる。
長期的な因果関係を効果的に把握するために,エゴモーションや行動信号によって識別される安全クリティカルなチャンクの監視に集中した時間的重要度サンプリングを提案する。
さらに、拡散型多視点レンダラーに光現実性合成を委譲し、光リアル性の向上を図る。
総合的な実験により、X-Foresightは、強力な生成的忠実性を維持しながら、VLAのベースラインを著しく上回っており、世界知識駆動型自律システムのための堅牢なパラダイムを確立している。
関連論文リスト
- Learning Vision-Language-Action World Models for Autonomous Driving [15.103497388527943]
VLA(Vision-Language-Action)モデルは最近、エンドツーエンドの自動運転において顕著な進歩を遂げている。
VLAモデルは時相力学と世界整合性の明示的なモデリングを欠いていることが多い。
VLA-World(VLA-World)は、予測的想像力と反射的推論を統一する、シンプルで効果的なVLA世界モデルである。
論文 参考訳(メタデータ) (2026-04-10T07:38:05Z) - ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model [53.15040805435013]
視覚言語モデル(VLM)は、一様にサンプリングされたフレームを解析することで、強力なセマンティックグラウンドと一般的な知識を提供する。
本稿では,高密度フレーム・ダイナミックス・モデリングと長軸意味指導を組み合わせたVLM誘導型JEPA型潜在世界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-23T17:59:42Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - DeepVerse: 4D Autoregressive Video Generation as a World Model [16.877309608945566]
DeepVerseは、4Dインタラクティブな新しい世界モデルであり、過去の時系列から幾何学的予測を現在の行動予測に明示的に取り入れている。
実験では、明示的な幾何学的制約を組み込むことで、DeepVerseはより豊かな時間的関係と基礎となる物理力学を捉えている。
この機能はドリフトを大幅に低減し、時間的一貫性を高め、モデルが確実に将来的なシーケンスを生成することを可能にする。
論文 参考訳(メタデータ) (2025-06-01T17:58:36Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [19.81442567260658]
本稿では,VLAを画像で考えることのできる視覚的テンポラルTフレームワークを提案する。
nuScenes と NAVSIM では、FSDrive は精度を改善し、衝突を減らす。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。