論文の概要: SFCo-Nav: Efficient Zero-Shot Visual Language Navigation via Collaboration of Slow LLM and Fast Attributed Graph Alignment
- arxiv url: http://arxiv.org/abs/2603.01477v1
- Date: Mon, 02 Mar 2026 05:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.812948
- Title: SFCo-Nav: Efficient Zero-Shot Visual Language Navigation via Collaboration of Slow LLM and Fast Attributed Graph Alignment
- Title(参考訳): SFCo-Nav: Slow LLMと高速分散グラフアライメントの協調による効率的なゼロショットビジュアル言語ナビゲーション
- Authors: Chaoran Xiong, Litao Wei, Xinhao Hu, Kehui Ma, Ziyi Xia, Zixin Jiang, Zhen Sun, Ling Pei,
- Abstract要約: 本稿では,効率的なゼロショットビジュアル言語ナビゲーションフレームワークであるSFCo-Navを紹介する。
2) リアルタイムオブジェクトグラフの構築とサブゴール実行のための高速なリアクティブナビゲータ,3) 非同期のスローファーストブリッジは高度な構造化,属性付き,認識されたグラフを整列して,ナビゲーションの信頼性を推定する。
従来のゼロショットVLNの成功率と一致または超える一方で、軌道当たりのトークン総消費量を50%以上削減し、3.5以上を走らせる。
- 参考スコア(独自算出の注目度): 7.6686624731596895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large vision-language models (VLMs) and large language models (LLMs) have enabled zero-shot approaches to visual language navigation (VLN), where an agent follows natural language instructions using only ego perception and reasoning. However, existing zero-shot methods typically construct a naive observation graph and perform per-step VLM-LLM inference on it, resulting in high latency and computation costs that limit real-time deployment. To address this, we present SFCo-Nav, an efficient zero-shot VLN framework inspired by the principle of slow-fast cognitive collaboration. SFCo-Nav integrates three key modules: 1) a slow LLM-based planner that produces a strategic chain of subgoals, each linked to an imagined object graph; 2) a fast reactive navigator for real-time object graph construction and subgoal execution; and 3) a lightweight asynchronous slow-fast bridge aligns advanced structured, attributed imagined and perceived graphs to estimate navigation confidence, triggering the slow LLM planner only when necessary. To the best of our knowledge, SFCo-Nav is the first slow-fast collaboration zero-shot VLN system supporting asynchronous LLM triggering according to the internal confidence. Evaluated on the public R2R and REVERIE benchmarks, SFCo-Nav matches or exceeds prior state-of-the-art zero-shot VLN success rates while cutting total token consumption per trajectory by over 50% and running more than 3.5 times faster. Finally, we demonstrate SFCo-Nav on a legged robot in a hotel suite, showcasing its efficiency and practicality in indoor environments.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)と大規模言語モデル(LLM)の最近の進歩は、エージェントがエゴ認識と推論のみを使用して自然言語命令に従うような視覚言語ナビゲーション(VLN)に対するゼロショットアプローチを可能にしている。
しかし、既存のゼロショット法は、通常、単純な観測グラフを構築し、ステップごとのVLM-LLM推論を実行し、結果としてリアルタイムデプロイメントを制限する高いレイテンシと計算コストをもたらす。
そこで本研究では,低速認知協調の原理に着想を得た,効率的なゼロショットVLNフレームワークであるSFCo-Navを提案する。
SFCo-Navは3つの重要なモジュールを統合している。
1) LLMに基づく遅いプランナーで, それぞれが想像対象グラフにリンクされた, 戦略的なサブゴールの連鎖を生成する。
2) リアルタイムオブジェクトグラフ構築とサブゴール実行のための高速反応性ナビゲータ
3) 軽量な非同期低速ブリッジは,高度に構造化された,想定された,認識されたグラフを整列させ,ナビゲーションの信頼性を推定し,必要な時にのみ遅いLCMプランナをトリガーする。
我々の知る限り、SFCo-Navは、内部の信頼度に応じて非同期LLMトリガをサポートする最初の遅いコラボレーションゼロショットVLNシステムである。
パブリックなR2RとREVERIEベンチマークに基づいて評価すると、SFCo-Navは最先端のゼロショットVLNの成功率と一致し、トラジェクトリ当たりのトークン総消費量を50%以上削減し、3.5倍以上の速度で実行することができる。
最後に,ホテルスイートの脚付きロボット上でSFCo-Navを実演し,室内環境における効率性と実用性を示す。
関連論文リスト
- EmergeNav: Structured Embodied Inference for Zero-Shot Vision-and-Language Navigation in Continuous Environments [9.501082922618542]
重要なボトルネックは知識の欠如ではなく,指示の体系化,知覚的基礎化,時間的進歩,ステージ検証といった実行構造が欠落している,と我々は主張する。
構造的具体的推論として連続VLNを定式化するゼロショットフレームワークであるEmergeNavを提案する。
VLN-CEでは、EmergeNavはオープンソースのVLMバックボーンのみを使用し、タスク固有のトレーニング、明示的なマップ、グラフ検索、ウェイポイント予測子を使用せずに、強力なゼロショットパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-16T14:07:51Z) - VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation [52.00474922315126]
未確認環境のための視覚言語ナビゲーションフレームワークであるVLN-Zeroを提案する。
我々は視覚言語モデルを用いて、記号的なシーングラフを効率的に構築し、ゼロショットのニューロシンボリックナビゲーションを可能にする。
VLN-Zeroは、最先端のゼロショットモデルと比べて2倍の成功率を獲得し、最も微調整されたベースラインを上回り、半分の時間でゴール地点に達する。
論文 参考訳(メタデータ) (2025-09-23T03:23:03Z) - KEPT: Knowledge-Enhanced Prediction of Trajectories from Consecutive Driving Frames with Vision-Language Models [19.625631486595505]
本稿では,知識に富んだ視覚言語フレームワークであるKEPTを紹介する。
連続するフロントビュー駆動フレームから直接エゴ軌道を予測する。
オープンループプロトコル間の最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-03T03:10:42Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。