論文の概要: Drift-Resistant Navigation World Model with Anchored Epipolar Guidance
- arxiv url: http://arxiv.org/abs/2605.24761v1
- Date: Sat, 23 May 2026 22:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.370111
- Title: Drift-Resistant Navigation World Model with Anchored Epipolar Guidance
- Title(参考訳): Anchored Epipolar Guidanceを用いたドリフト抵抗型ナビゲーションワールドモデル
- Authors: Po-Chien Luan, Zimin Xia, Wuyang Li, Yang Gao, Alexandre Alahi,
- Abstract要約: 本稿では,従来のロールアウト型ナビゲーションワールドモデルにおいて,知覚的ドリフトと幾何学的ドリフトの両方を緩和する生成モデルであるDrift-Resistant Navigation World Modelを提案する。
まず、安定な長距離ターゲットとして機能するスパース未来のアンカーを予測し、その後、過去のコンテキストと将来のアンカーの両方で条件付けられた各チャンク内で中間フレームを生成する。
4つのベンチマークの実験では、長期の視覚的品質、幾何的一貫性、多視点コヒーレンスにおいて、強いベースラインよりも一貫した改善が示されている。
- 参考スコア(独自算出の注目度): 81.52175010905665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Drift-Resistant Navigation World Model, a generative model that mitigates both perceptual drift and geometric drift in conventional rollout-based navigation world models. Existing methods recursively feed generated content into subsequent steps, causing noise accumulation and degraded predictions, i.e., perceptual drift. Meanwhile, their predictions often deviate from the agent's motion, resulting in geometry drift. We address both types of drift by redesigning world-model prediction as an anchor-guided rollout. Instead of rolling out every frame sequentially, we first predict sparse future anchors that serve as stable long-range targets, and then generate intermediate frames within each chunk conditioned on both past context and future anchors. Importantly, these sparse anchors also provide geometric constraints, supported by bidirectional epipolar geometry, to localize where corresponding content should appear in the intermediate frames. Experiments on four benchmarks demonstrate consistent improvements over strong baselines in long-horizon visual quality, geometric consistency, and multi-view coherence. These gains further translate into improved downstream planning performance under the same planners, highlighting the importance of drift-resistant, geometry-aware prediction for reliable navigation world models.
- Abstract(参考訳): 本稿では,従来のロールアウト型ナビゲーションワールドモデルにおいて,知覚的ドリフトと幾何学的ドリフトの両方を緩和する生成モデルであるDrift-Resistant Navigation World Modelを提案する。
既存の方法は、生成したコンテンツを後続のステップに再帰的に供給し、ノイズの蓄積と劣化予測、すなわち知覚的ドリフトを引き起こす。
一方、それらの予測はしばしばエージェントの動きから逸脱し、幾何学的ドリフトをもたらす。
我々は、世界モデル予測をアンカー誘導ロールアウトとして再設計することで、両方の種類のドリフトに対処する。
各フレームを逐次ロールアウトする代わりに、まず、安定な長距離ターゲットとして機能する疎未来のアンカーを予測し、その後、過去のコンテキストと将来のアンカーの両方で条件付けられた各チャンク内で中間フレームを生成する。
重要なことに、これらのスパースアンカーは、中間フレームに対応するコンテンツが現れる場所をローカライズするために、双方向のエピポーラ幾何学によって支えられる幾何学的制約も提供する。
4つのベンチマークの実験では、長期の視覚的品質、幾何的一貫性、多視点コヒーレンスにおいて、強いベースラインよりも一貫した改善が示されている。
これらの向上により、同じプランナーの下での下流計画性能が向上し、信頼性の高いナビゲーションワールドモデルに対するドリフト耐性、幾何認識予測の重要性が浮き彫りになった。
関連論文リスト
- Can Video Diffusion Models Predict Past Frames? Bidirectional Cycle Consistency for Reversible Interpolation [25.677744104220853]
ビデオフレームは、特定の動作セマンティクスに固執しながら、所定のエンドポイント間で現実的な中間フレームを合成することを目的としている。
本稿では,前向きと後向きの軌跡の対称性を強制する新しい双方向フレームワークを提案する。
本手法は,37フレームと73フレームの両方のタスクにおいて,画像品質,運動の滑らかさ,動的制御における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-02T06:58:46Z) - DynFlowDrive: Flow-Based Dynamic World Modeling for Autonomous Driving [67.83404465171257]
DynFlowDriveは、異なる運転行動の下で世界状態の遷移をモデル化する潜在世界モデルである。
異なる駆動動作の下でシーン状態がどのように変化するかを記述した速度場を学習する。
これに基づいて,安定性を考慮した多モード軌道選択戦略を導入する。
論文 参考訳(メタデータ) (2026-03-20T06:19:31Z) - VGGT-World: Transforming VGGT into an Autoregressive Geometry World Model [59.789011777899965]
VGGT-World(VGGT-World)は、ビデオ生成を完全にサイドステップで行い、凍った幾何学的境界モデルの特徴の時間的進化を予測する幾何学世界モデルである。
VGGT-Worldは3.6~5倍高速で、トレーニング可能なパラメータはわずか0.43Bである。
論文 参考訳(メタデータ) (2026-03-13T04:56:43Z) - RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - Mitigating Error Accumulation in Continuous Navigation via Memory-Augmented Kalman Filtering [20.380488628232186]
無人航空機(UAV)にとって連続航法は重要である
既存のVision-Language Navigation (VLN) モデルはデッドレコンディングに従っており、次のウェイポイント予測のためにその位置を反復的に更新し、その後に完全な軌道を構築する。
本研究では,ナビゲーションを2つの補完的なプロセスに分解する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-30T05:03:08Z) - AstraNav-World: World Model for Foresight Control and Consistency [40.07910402326578]
ダイナミックな環境での身体的ナビゲーションは、世界がどのように進化し、どのように行動が時間とともに広がるかを正確に予測する必要がある。
AstraNav-Worldは、未来の視覚状態とアクションシーケンスを共同で推論するエンド・ツー・エンドの世界モデルである。
本フレームワークは,拡散型ビデオジェネレータとビジョン言語ポリシーを統合し,同期ロールアウトを実現する。
論文 参考訳(メタデータ) (2025-12-25T15:31:24Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment [16.343768407636322]
本稿では,自己指導型ポストトレーニングフレームワークであるReinforcement Learning with World Grounding(RLWG)を紹介する。
このフレームワークをGrndCtrlでインスタンス化する。GrndCtrlは、グループ相対ポリシー最適化(GRPO)に基づく報酬整合型適応手法で、安定な軌道の維持、一貫した幾何、エンボディナビゲーションのための信頼性のあるロールアウトを行う世界モデルを生成する。
論文 参考訳(メタデータ) (2025-12-01T18:03:29Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。