論文の概要: CoINS: Counterfactual Interactive Navigation via Skill-Aware VLM
- arxiv url: http://arxiv.org/abs/2601.03956v1
- Date: Wed, 07 Jan 2026 14:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.685528
- Title: CoINS: Counterfactual Interactive Navigation via Skill-Aware VLM
- Title(参考訳): CoINS: Skill-Aware VLMによる対物対話ナビゲーション
- Authors: Kangjie Zhou, Zhejia Wen, Zhiyong Zhuo, Zike Yan, Pengying Wu, Ieng Hou U, Shuaiyang Li, Han Gao, Kang Ding, Wenhan Cao, Wei Pan, Chang Liu,
- Abstract要約: スキル認識型VLM(CoINS)による対物対話ナビゲーションを提案する。
我々は、スキルの余裕と具体的な制約パラメータを入力コンテキストに組み込んだ、InterNav-VLMというVLMを微調整する。
生成した高レベルプランを実行するために,強化学習による総合的なスキルライブラリを開発する。
- 参考スコア(独自算出の注目度): 13.352875026471445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision-Language Models (VLMs) have demonstrated significant potential in robotic planning. However, they typically function as semantic reasoners, lacking an intrinsic understanding of the specific robot's physical capabilities. This limitation is particularly critical in interactive navigation, where robots must actively modify cluttered environments to create traversable paths. Existing VLM-based navigators are predominantly confined to passive obstacle avoidance, failing to reason about when and how to interact with objects to clear blocked paths. To bridge this gap, we propose Counterfactual Interactive Navigation via Skill-aware VLM (CoINS), a hierarchical framework that integrates skill-aware reasoning and robust low-level execution. Specifically, we fine-tune a VLM, named InterNav-VLM, which incorporates skill affordance and concrete constraint parameters into the input context and grounds them into a metric-scale environmental representation. By internalizing the logic of counterfactual reasoning through fine-tuning on the proposed InterNav dataset, the model learns to implicitly evaluate the causal effects of object removal on navigation connectivity, thereby determining interaction necessity and target selection. To execute the generated high-level plans, we develop a comprehensive skill library through reinforcement learning, specifically introducing traversability-oriented strategies to manipulate diverse objects for path clearance. A systematic benchmark in Isaac Sim is proposed to evaluate both the reasoning and execution aspects of interactive navigation. Extensive simulations and real-world experiments demonstrate that CoINS significantly outperforms representative baselines, achieving a 17\% higher overall success rate and over 80\% improvement in complex long-horizon scenarios compared to the best-performing baseline
- Abstract(参考訳): 近年のビジョンランゲージモデル(VLM)は、ロボット計画において大きな可能性を示している。
しかし、それらは典型的には意味論的推論として機能し、特定のロボットの身体能力に関する本質的な理解が欠如している。
この制限は、ロボットが移動可能な経路を作るために散らばった環境を積極的に修正する必要がある、インタラクティブなナビゲーションにおいて特に重要である。
既存のVLMベースのナビゲータは、主にパッシブな障害物回避に制限されており、ブロックされたパスをクリアするためにオブジェクトといつどのように対話するかを判断できない。
このギャップを埋めるために,スキル対応推論とロバストな低レベル実行を統合する階層型フレームワークであるCoINS(Coerfactual Interactive Navigation via Skill-aware VLM)を提案する。
具体的には、スキル・アベイランスと具体的な制約パラメータを入力コンテキストに組み込んだ、InterNav-VLMというVLMの微調整を行い、それらをメートルスケールの環境表現に変換する。
提案したInterNavデータセットの微調整により,反ファクト推論の論理を内部化することにより,オブジェクト除去がナビゲーション接続に与える影響を暗黙的に評価し,インタラクションの必要性とターゲット選択を決定する。
生成した高レベルプランを実行するために、強化学習による総合的なスキルライブラリを開発し、特に、パスクリアランスのために多様なオブジェクトを操作するためのトラバーサビリティ指向戦略を導入する。
アイザック・シムの系統的なベンチマークは、対話型ナビゲーションの推論と実行の両方の側面を評価するために提案されている。
大規模シミュレーションと実世界の実験により、CoINSは代表ベースラインを著しく上回り、全体の成功率17\%、複雑な長期シナリオでは80%以上向上していることが示された。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - Think, Remember, Navigate: Zero-Shot Object-Goal Navigation with VLM-Powered Reasoning [8.316876835702525]
ビジョンランゲージモデル(VLM)は、ロボットナビゲーションを変換するために設定されている。
我々のフレームワークは、その文脈理解を活用してフロンティアベースの探索エージェントを誘導する高レベルのプランニングをVLMにアウトソースする。
HM3D、Gibson、MP3Dのような挑戦的なベンチマークでテストすると、この手法は例外的に直接的かつ論理的な軌道を生成する。
論文 参考訳(メタデータ) (2025-11-12T03:38:50Z) - General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting [5.291702442384798]
Agentic Robotic Navigation Architecture (ARNA)は、LVLMベースのエージェントに知覚、推論、ナビゲーションツールのライブラリを装備する汎用フレームワークである。
実行時にエージェントは、現代のロボットスタックから引き出されたタスク固有のナビゲーションツールを自律的に定義し、実行します。
ARNAは最先端のEQA特異的アプローチより優れている。
論文 参考訳(メタデータ) (2025-06-20T20:06:14Z) - History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。