論文の概要: Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents
- arxiv url: http://arxiv.org/abs/2508.07642v1
- Date: Mon, 11 Aug 2025 05:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.96082
- Title: Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents
- Title(参考訳): ブレークダウンとビルアップ:スキルベースの視覚・言語ナビゲーションエージェントの混在
- Authors: Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが自然言語命令を解釈し、複雑な3D環境をナビゲートできるようにする上で、大きな課題となる。
トランスフォーマーベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュラーフレームワークであるSkillNavを提案する。
本手法では,ナビゲーションを解釈可能な原子技術(垂直移動,地域識別,停止,一時停止など)の集合に分解し,それぞれが特殊エージェントによって処理される。
次に、ゼロショットビジョンランゲージモデル(VLM)ベースの新しいルータを導入し、各ステップで最適なエージェントを動的に選択する。
- 参考スコア(独自算出の注目度): 31.63888737981846
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-and-Language Navigation (VLN) poses significant challenges in enabling agents to interpret natural language instructions and navigate complex 3D environments. While recent progress has been driven by large-scale pre-training and data augmentation, current methods still struggle to generalize to unseen scenarios, particularly when complex spatial and temporal reasoning is required. In this work, we propose SkillNav, a modular framework that introduces structured, skill-based reasoning into Transformer-based VLN agents. Our method decomposes navigation into a set of interpretable atomic skills (e.g., Vertical Movement, Area and Region Identification, Stop and Pause), each handled by a specialized agent. We then introduce a novel zero-shot Vision-Language Model (VLM)-based router, which dynamically selects the most suitable agent at each time step by aligning sub-goals with visual observations and historical actions. SkillNav achieves a new state-of-the-art performance on the R2R benchmark and demonstrates strong generalization to the GSA-R2R benchmark that includes novel instruction styles and unseen environments.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが自然言語命令を解釈し、複雑な3D環境をナビゲートできるようにする上で、大きな課題となる。
最近の進歩は、大規模な事前学習とデータ拡張によって推進されているが、現在の手法は、特に複雑な空間的および時間的推論が必要な場合に、目に見えないシナリオへの一般化に苦慮している。
本研究では,TransformerベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュール型フレームワークであるSkillNavを提案する。
本手法は,ナビゲーションを解釈可能な原子技術(例えば,垂直移動,領域と領域の同定,停止,一時停止)に分解し,それぞれが特殊エージェントによって処理される。
次に、ゼロショットビジョンランゲージモデル(VLM)ベースの新しいルータを導入し、サブゴールを視覚的観察と歴史的行動に合わせることで、各ステップで最適なエージェントを動的に選択する。
SkillNavは、R2Rベンチマークで新しい最先端のパフォーマンスを実現し、新しい命令スタイルと目に見えない環境を含むGSA-R2Rベンチマークへの強力な一般化を実証している。
関連論文リスト
- VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - General Scene Adaptation for Vision-and-Language Navigation [19.215183093931785]
VLN(Vision-and-Language Navigation)タスクは、主に複数の環境にまたがる個々の命令のワンタイム実行に基づいてエージェントを評価する。
GSA-VLNは、エージェントが特定のシーン内でナビゲーション命令を実行し、時間とともにパフォーマンスを向上させるために同時にそれに対応することを要求する新しいタスクである。
本稿では,新しいデータセット GSA-R2R を提案し,R2R データセットに対する環境と指示の多様性と量を大幅に拡張する。
論文 参考訳(メタデータ) (2025-01-29T03:57:56Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。