論文の概要: CLASH: Collaborative Large-Small Hierarchical Framework for Continuous Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2512.10360v2
- Date: Fri, 23 Jan 2026 08:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.277241
- Title: CLASH: Collaborative Large-Small Hierarchical Framework for Continuous Vision-and-Language Navigation
- Title(参考訳): CLASH: 連続視覚・言語ナビゲーションのための協調型大規模階層型フレームワーク
- Authors: Liuyi Wang, Zongtao He, Jinlong Li, Ruihao Xia, Mengxian Hu, Chenpeng Yao, Chengju Liu, Yang Tang, Qijun Chen,
- Abstract要約: VLN(Vision-and-Language Navigation)では、ロボットが自然言語の指示に従い、事前の地図を使わずに複雑な環境をナビゲートする必要がある。
反応型小型モデルプランナ (RSMP) と反射型大型モデル推論器 (RLMR) を統合した VLN-CE フレームワーク CLASH を提案する。
シミュレーションでは,ルールベースのコントローラを完全学習可能なポイントゴールポリシーに置き換え,実世界の展開では,ナビゲーション可能なウェイポイントを生成するためのLiDARベースのクラスタリングモジュールを設計する。
- 参考スコア(独自算出の注目度): 38.37757288365413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires robots to follow natural language instructions and navigate complex environments without prior maps. While recent vision-language large models demonstrate strong reasoning abilities, they often underperform task-specific panoramic small models in VLN tasks. To address this, we propose CLASH (Collaborative Large-Small Hierarchy), a VLN-CE framework that integrates a reactive small-model planner (RSMP) with a reflective large-model reasoner (RLMR). RSMP adopts a causal-learning-based dual-branch architecture to enhance generalization, while RLMR leverages panoramic visual prompting with chain-of-thought reasoning to support interpretable spatial understanding and navigation. We further introduce an uncertainty-aware collaboration mechanism (UCM) that adaptively fuses decisions from both models. For obstacle avoidance, in simulation, we replace the rule-based controller with a fully learnable point-goal policy, and in real-world deployment, we design a LiDAR-based clustering module for generating navigable waypoints and pair it with an online SLAM-based local controller. CLASH achieves state-of-the-art (SoTA) results (ranking 1-st) on the VLN-CE leaderboard, significantly improving SR and SPL on the test-unseen set over the previous SoTA methods. Real-world experiments demonstrate CLASH's strong robustness, validating its effectiveness in both simulation and deployment scenarios.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)では、ロボットが自然言語の指示に従い、事前の地図を使わずに複雑な環境をナビゲートする必要がある。
最近の視覚言語による大規模モデルは強い推論能力を示すが、VLNタスクではタスク固有のパノラマ小モデルよりも性能が低いことが多い。
これを解決するために,反応型小モデルプランナ(RSMP)と反射型大モデル推論器(RLMR)を統合したVLN-CEフレームワークであるCLASH(Collaborative Large-Small Hierarchy)を提案する。
RSMPは因果学習に基づくデュアルブランチアーキテクチャを採用し、一般化を強化し、RLMRはパノラマ的な視覚的プロンプトを利用して、解釈可能な空間的理解とナビゲーションをサポートする。
さらに、両モデルから意思決定を適応的に融合させる不確実性認識協調機構(UCM)を導入する。
障害物回避のため、シミュレーションでは、ルールベースのコントローラを完全学習可能なポイントゴールポリシーに置き換え、実世界の展開では、ナビゲーション可能なウェイポイントを生成するためのLiDARベースのクラスタリングモジュールを設計し、オンラインSLAMベースのローカルコントローラと組み合わせる。
CLASHは、VLN-CEのリーダーボード上で、最新技術(SoTA)の結果(最高1位)を達成し、以前のSoTAメソッドよりもテスト未確認セットのSRとSPLを大幅に改善した。
実世界の実験では、CLASHの強い堅牢性を実証し、シミュレーションとデプロイメントのシナリオでの有効性を検証する。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning [5.517595398768408]
本稿では,エゴ単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。
このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2025-12-09T14:25:24Z) - BLIP-FusePPO: A Vision-Language Deep Reinforcement Learning Framework for Lane Keeping in Autonomous Vehicles [0.0]
自律車線維持(LK)のためのマルチモーダル強化学習(RL)のための新しいフレームワークを提案する。
提案手法により,エージェントは周囲を認識し,理解しやすい運転ルールを学習することができる。
セマンティックアライメント、LK精度、障害物回避、速度制御を含むハイブリッド報酬関数は、学習をより効率的で一般化しやすいものにするのに役立つ。
論文 参考訳(メタデータ) (2025-10-25T17:27:08Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。
CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。
動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T20:51:58Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。