論文の概要: ImagiNav: Scalable Embodied Navigation via Generative Visual Prediction and Inverse Dynamics
- arxiv url: http://arxiv.org/abs/2603.13833v1
- Date: Sat, 14 Mar 2026 08:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.793581
- Title: ImagiNav: Scalable Embodied Navigation via Generative Visual Prediction and Inverse Dynamics
- Title(参考訳): ImagiNav: 生成的視覚予測と逆ダイナミクスによるスケーラブルな体操ナビゲーション
- Authors: Jie Chen, Yuxin Cai, Yizhuo Wang, Ruofei Bai, Yuhong Cao, Jun Li, Yau Wei Yun, Guillaume Sartoretti,
- Abstract要約: Vision-Language Navigationは、高価なエンボディメント固有のロボットデータに基づいて訓練されたエンドツーエンドのポリシーに依存している。
ロボットの動作から視覚計画を切り離す新しいモジュラーパラダイムであるImagiNavを提案する。
ImagiNavは、ロボットのデモを必要とせずに、ロボットナビゲーションへの強力なゼロショット転送をデモする。
- 参考スコア(独自算出の注目度): 13.382453086651019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling robots to navigate open-world environments via natural language is critical for general-purpose autonomy. Yet, Vision-Language Navigation has relied on end-to-end policies trained on expensive, embodiment-specific robot data. While recent foundation models trained on vast simulation data show promise, the challenge of scaling and generalizing due to the limited scene diversity and visual fidelity in simulation persists. To address this gap, we propose ImagiNav, a novel modular paradigm that decouples visual planning from robot actuation, enabling the direct utilization of diverse in-the-wild navigation videos. Our framework operates as a hierarchy: a Vision-Language Model first decomposes instructions into textual subgoals; a finetuned generative video model then imagines the future video trajectory towards that subgoal; finally, an inverse dynamics model extracts the trajectory from the imagined video, which can then be tracked via a low-level controller. We additionally develop a scalable data pipeline of in-the-wild navigation videos auto-labeled via inverse dynamics and a pretrained Vision-Language Model. ImagiNav demonstrates strong zero-shot transfer to robot navigation without requiring robot demonstrations, paving the way for generalist robots that learn navigation directly from unlabeled, open-world data.
- Abstract(参考訳): 自然言語を介してオープンワールド環境をナビゲートするロボットの実現は、汎用的な自律性に不可欠である。
しかしVision-Language Navigationは、高価なエンボディメント固有のロボットデータに基づいて訓練されたエンドツーエンドのポリシーに依存している。
大規模なシミュレーションデータに基づいてトレーニングされた最近の基礎モデルは、将来性を示しているが、シーンの多様性とシミュレーションにおける視覚的忠実度が制限されているため、スケーリングと一般化の難しさは持続する。
このギャップに対処するために,ロボットの動作から視覚計画を切り離すモジュール方式のImagiNavを提案する。
我々のフレームワークは階層構造として機能する: 視覚言語モデル(Vision-Language Model)は、まず命令をテキストサブゴールに分解する; 微調整された生成ビデオモデル(Generative Video Model)は、そのサブゴールへの将来のビデオトラジェクトリを想像する; 最後に、逆ダイナミクスモデル(Inverse dynamics model)は、想像されたビデオからトラジェクトリを抽出し、低レベルコントローラを介して追跡する。
さらに、逆ダイナミクスと事前訓練されたビジョン・ランゲージ・モデルにより自動ラベル付けされた、Wild内ナビゲーションビデオのスケーラブルなデータパイプラインを開発する。
ImagiNavは、ロボットのデモを必要とせずに、ロボットナビゲーションへの強力なゼロショット転送をデモしている。
関連論文リスト
- VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation [16.279434375658457]
VAMOSは階層的なVLAで、セマンティックプランニングを実施基盤から切り離す。
室内および複雑な屋外ナビゲーションにおいて,VAMOSは高い成功率を達成することを示す。
このモデルはシングルロボットの信頼性を著しく向上させ、物理的に不可能な計画を拒否して3倍の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-23T17:59:45Z) - OpenNav: Open-World Navigation with Multimodal Large Language Models [8.41361699991122]
大型言語モデル(LLM)は強力な常識推論能力を示しており、ロボットナビゲーションと計画タスクを約束している。
ロボットが複雑な言語命令を解釈して分解し、最終的には一連の軌跡を合成して、多様なナビゲーションタスクを完備化することを目指している。
室内および屋外の両方のシーンにおいて,ハスキーロボットを用いたシステムの有効性を検証し,実世界のロバスト性と適用性を示す。
論文 参考訳(メタデータ) (2025-07-24T02:05:28Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。