論文の概要: NavDreamer: Video Models as Zero-Shot 3D Navigators
- arxiv url: http://arxiv.org/abs/2602.09765v1
- Date: Tue, 10 Feb 2026 13:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.324911
- Title: NavDreamer: Video Models as Zero-Shot 3D Navigators
- Title(参考訳): NavDreamer: ゼロショット3Dナビゲーターとしてのビデオモデル
- Authors: Xijie Huang, Weiqi Gai, Tianyue Wu, Congyu Wang, Zhiyang Liu, Xin Zhou, Yuze Wu, Fei Gao,
- Abstract要約: 本稿では,生成的映像モデルを言語命令と軌跡間の普遍的なインターフェースとして活用する3次元ナビゲーションのための映像ベースのフレームワークを提案する。
我々の主要な仮説は、映像が情報と物理力学をエンコードし、インターネットスケールの可用性と組み合わせることで、ナビゲーションにおけるゼロショットの強力な一般化を可能にする、というものである。
- 参考スコア(独自算出の注目度): 10.105345998118915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous Vision-Language-Action models face critical limitations in navigation: scarce, diverse data from labor-intensive collection and static representations that fail to capture temporal dynamics and physical laws. We propose NavDreamer, a video-based framework for 3D navigation that leverages generative video models as a universal interface between language instructions and navigation trajectories. Our main hypothesis is that video's ability to encode spatiotemporal information and physical dynamics, combined with internet-scale availability, enables strong zero-shot generalization in navigation. To mitigate the stochasticity of generative predictions, we introduce a sampling-based optimization method that utilizes a VLM for trajectory scoring and selection. An inverse dynamics model is employed to decode executable waypoints from generated video plans for navigation. To systematically evaluate this paradigm in several video model backbones, we introduce a comprehensive benchmark covering object navigation, precise navigation, spatial grounding, language control, and scene reasoning. Extensive experiments demonstrate robust generalization across novel objects and unseen environments, with ablation studies revealing that navigation's high-level decision-making nature makes it particularly suited for video-based planning.
- Abstract(参考訳): 従来のビジョン・ランゲージ・アクションモデルはナビゲーションにおいて重要な制限に直面しており、労働集約的な収集や時間的ダイナミクスや物理法則を捉えるのに失敗する静的な表現から得られる多様なデータが不足している。
本研究では,3次元ナビゲーションのための動画ベースのフレームワークであるNavDreamerを提案する。
我々の主要な仮説は、ビデオが時空間情報や物理力学を符号化し、インターネットスケールの可用性と組み合わせることで、ナビゲーションにおけるゼロショットの強力な一般化を可能にする、というものである。
生成予測の確率性を軽減するために,VLMを用いて軌道のスコアと選択を行うサンプリングベース最適化手法を提案する。
逆ダイナミクスモデルを用いて、ナビゲーションのために生成されたビデオプランから実行可能なウェイポイントをデコードする。
いくつかのビデオモデルバックボーンにおいて、このパラダイムを体系的に評価するために、オブジェクトナビゲーション、正確なナビゲーション、空間的接地、言語制御、シーン推論を含む包括的なベンチマークを導入する。
大規模な実験は、新しい物体と見えない環境をまたいだ堅牢な一般化を実証し、アブレーション研究により、ナビゲーションの高レベルな意思決定の性質が、特にビデオベースの計画に向いていることが明らかになった。
関連論文リスト
- ImagiNav: Scalable Embodied Navigation via Generative Visual Prediction and Inverse Dynamics [13.382453086651019]
Vision-Language Navigationは、高価なエンボディメント固有のロボットデータに基づいて訓練されたエンドツーエンドのポリシーに依存している。
ロボットの動作から視覚計画を切り離す新しいモジュラーパラダイムであるImagiNavを提案する。
ImagiNavは、ロボットのデモを必要とせずに、ロボットナビゲーションへの強力なゼロショット転送をデモする。
論文 参考訳(メタデータ) (2026-03-14T08:34:02Z) - OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - 3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。
3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。
ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文 参考訳(メタデータ) (2026-02-12T16:41:26Z) - History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。