Fugu-MT 論文翻訳(概要): ImagiNav: Scalable Embodied Navigation via Generative Visual Prediction and Inverse Dynamics

論文の概要: ImagiNav: Scalable Embodied Navigation via Generative Visual Prediction and Inverse Dynamics

arxiv url: http://arxiv.org/abs/2603.13833v1
Date: Sat, 14 Mar 2026 08:34:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-21 18:33:56.793581
Title: ImagiNav: Scalable Embodied Navigation via Generative Visual Prediction and Inverse Dynamics
Title（参考訳）: ImagiNav: 生成的視覚予測と逆ダイナミクスによるスケーラブルな体操ナビゲーション
Authors: Jie Chen, Yuxin Cai, Yizhuo Wang, Ruofei Bai, Yuhong Cao, Jun Li, Yau Wei Yun, Guillaume Sartoretti,
Abstract要約: Vision-Language Navigationは、高価なエンボディメント固有のロボットデータに基づいて訓練されたエンドツーエンドのポリシーに依存している。ロボットの動作から視覚計画を切り離す新しいモジュラーパラダイムであるImagiNavを提案する。 ImagiNavは、ロボットのデモを必要とせずに、ロボットナビゲーションへの強力なゼロショット転送をデモする。
参考スコア（独自算出の注目度）: 13.382453086651019
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Enabling robots to navigate open-world environments via natural language is critical for general-purpose autonomy. Yet, Vision-Language Navigation has relied on end-to-end policies trained on expensive, embodiment-specific robot data. While recent foundation models trained on vast simulation data show promise, the challenge of scaling and generalizing due to the limited scene diversity and visual fidelity in simulation persists. To address this gap, we propose ImagiNav, a novel modular paradigm that decouples visual planning from robot actuation, enabling the direct utilization of diverse in-the-wild navigation videos. Our framework operates as a hierarchy: a Vision-Language Model first decomposes instructions into textual subgoals; a finetuned generative video model then imagines the future video trajectory towards that subgoal; finally, an inverse dynamics model extracts the trajectory from the imagined video, which can then be tracked via a low-level controller. We additionally develop a scalable data pipeline of in-the-wild navigation videos auto-labeled via inverse dynamics and a pretrained Vision-Language Model. ImagiNav demonstrates strong zero-shot transfer to robot navigation without requiring robot demonstrations, paving the way for generalist robots that learn navigation directly from unlabeled, open-world data.
Abstract（参考訳）: 自然言語を介してオープンワールド環境をナビゲートするロボットの実現は、汎用的な自律性に不可欠である。しかしVision-Language Navigationは、高価なエンボディメント固有のロボットデータに基づいて訓練されたエンドツーエンドのポリシーに依存している。大規模なシミュレーションデータに基づいてトレーニングされた最近の基礎モデルは、将来性を示しているが、シーンの多様性とシミュレーションにおける視覚的忠実度が制限されているため、スケーリングと一般化の難しさは持続する。このギャップに対処するために,ロボットの動作から視覚計画を切り離すモジュール方式のImagiNavを提案する。我々のフレームワークは階層構造として機能する: 視覚言語モデル(Vision-Language Model)は、まず命令をテキストサブゴールに分解する; 微調整された生成ビデオモデル(Generative Video Model)は、そのサブゴールへの将来のビデオトラジェクトリを想像する; 最後に、逆ダイナミクスモデル(Inverse dynamics model)は、想像されたビデオからトラジェクトリを抽出し、低レベルコントローラを介して追跡する。さらに、逆ダイナミクスと事前訓練されたビジョン・ランゲージ・モデルにより自動ラベル付けされた、Wild内ナビゲーションビデオのスケーラブルなデータパイプラインを開発する。 ImagiNavは、ロボットのデモを必要とせずに、ロボットナビゲーションへの強力なゼロショット転送をデモしている。

論文の概要: ImagiNav: Scalable Embodied Navigation via Generative Visual Prediction and Inverse Dynamics

関連論文リスト