論文の概要: FineCog-Nav: Integrating Fine-grained Cognitive Modules for Zero-shot Multimodal UAV Navigation
- arxiv url: http://arxiv.org/abs/2604.16298v1
- Date: Fri, 17 Apr 2026 17:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.043259
- Title: FineCog-Nav: Integrating Fine-grained Cognitive Modules for Zero-shot Multimodal UAV Navigation
- Title(参考訳): FineCog-Nav:Zero-shot Multimodal UAVナビゲーションのためのきめ細かい認知モジュールの統合
- Authors: Dian Shao, Zhengzheng Xu, Peiyang Wang, Like Liu, Yule Wang, Jieqi Shi, Jing Huo,
- Abstract要約: FineCog-Navは、ナビゲーションを言語処理、知覚、注意、記憶、想像、推論、意思決定のためのきめ細かいモジュールに整理する。
FineCog-Navは、命令順守、長期計画、そして目に見えない環境への一般化において、ゼロショットベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 20.13280678867453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: UAV vision-language navigation (VLN) requires an agent to navigate complex 3D environments from an egocentric perspective while following ambiguous multi-step instructions over long horizons. Existing zero-shot methods remain limited, as they often rely on large base models, generic prompts, and loosely coordinated modules. In this work, we propose FineCog-Nav, a top-down framework inspired by human cognition that organizes navigation into fine-grained modules for language processing, perception, attention, memory, imagination, reasoning, and decision-making. Each module is driven by a moderate-sized foundation model with role-specific prompts and structured input-output protocols, enabling effective collaboration and improved interpretability. To support fine-grained evaluation, we construct AerialVLN-Fine, a curated benchmark of 300 trajectories derived from AerialVLN, with sentence-level instruction-trajectory alignment and refined instructions containing explicit visual endpoints and landmark references. Experiments show that FineCog-Nav consistently outperforms zero-shot baselines in instruction adherence, long-horizon planning, and generalization to unseen environments. These results suggest the effectiveness of fine-grained cognitive modularization for zero-shot aerial navigation. Project page: https://smartdianlab.github.io/projects-FineCogNav.
- Abstract(参考訳): UAV視覚言語ナビゲーション(VLN)では、エージェントがエゴセントリックな視点から複雑な3D環境をナビゲートし、長い地平線上で曖昧なマルチステップの指示に従う必要がある。
既存のゼロショット法は、大きなベースモデルやジェネリックプロンプト、緩やかに調整されたモジュールに依存することが多いため、依然として制限されている。
本研究では,人間の認識にインスパイアされたトップダウンフレームワークであるFineCog-Navを提案し,ナビゲーションを言語処理,知覚,注意,記憶,想像,推論,意思決定のための細粒度モジュールに編成する。
各モジュールは、ロール固有のプロンプトと構造化された入出力プロトコルを備えた中規模の基礎モデルによって駆動される。
AerialVLN-Fineは,AerialVLNから派生した300のトラジェクトリのキュレートされたベンチマークであり,文レベルの命令・トラジェクトリアライメントと,明示的な視覚的終端とランドマーク参照を含む洗練された命令を含む。
実験により、FinCog-Navは命令順守、長距離計画、および目に見えない環境への一般化において、ゼロショットベースラインを一貫して上回っていることが示された。
これらの結果から, ゼロショット航法における微粒化認知モジュラー化の有効性が示唆された。
プロジェクトページ: https://smartdianlab.github.io/projects-FineCogNav
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs [51.18508300818979]
Vision Language-Language Navigation (VL-LN)ベンチマークは、ダイアログ対応ナビゲーションモデルのトレーニングと評価のための大規模で自動生成されたデータセットを提供する。
VL−LNは、トレーニング用41k以上の長軸ダイアログ拡張軌道と、エージェントクエリに応答可能なオラクルを備えた自動評価プロトコルとを備える。
論文 参考訳(メタデータ) (2025-12-26T19:00:12Z) - MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation [42.4892002514681]
現実世界のデプロイメントには、オープンな語彙の一般化とトレーニングのオーバーヘッドの低減が必要だ。
明示的な3Dシーングラフを構築する既存のゼロショット法は、リッチな視覚的観察をテキストのみの関係に圧縮する。
テキスト関係を置き換えることで視覚的手がかりを保存できるM3DSG(Multi-modal 3D Scene Graph)を導入する。
論文 参考訳(メタデータ) (2025-11-13T14:51:21Z) - OctoNav: Towards Generalist Embodied Navigation [36.062963913289316]
エンボディードナビゲーションは、エンボディードAIの幅広い追求の基盤の柱である。
本研究では,自由形指示に従う汎用ナビゲーションエージェントを提案する。
我々は,OctoNav-BenchとOctoNav-R1と呼ばれる大規模ベンチマークとそれに対応する手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T15:15:17Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。