論文の概要: Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents
- arxiv url: http://arxiv.org/abs/2508.07642v2
- Date: Wed, 01 Oct 2025 00:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 17:16:29.726233
- Title: Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents
- Title(参考訳): ブレークダウンとビルアップ:スキルベースの視覚・言語ナビゲーションエージェントの混在
- Authors: Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi,
- Abstract要約: VLN(Vision-and-Language Navigation)は、自然言語命令を解釈し、複雑な3D環境をナビゲートするエージェントにとって大きな課題となる。
トランスフォーマーベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュラーフレームワークであるSkillNavを提案する。
- 参考スコア(独自算出の注目度): 43.5771856761934
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-and-Language Navigation (VLN) poses significant challenges for agents to interpret natural language instructions and navigate complex 3D environments. While recent progress has been driven by large-scale pre-training and data augmentation, current methods still struggle to generalize to unseen scenarios, particularly when complex spatial and temporal reasoning is required. In this work, we propose SkillNav, a modular framework that introduces structured, skill-based reasoning into Transformer-based VLN agents. Our method decomposes navigation into a set of interpretable atomic skills (e.g., Vertical Movement, Area and Region Identification, Stop and Pause), each handled by a specialized agent. To support targeted skill training without manual data annotation, we construct a synthetic dataset pipeline that generates diverse, linguistically natural, skill-specific instruction-trajectory pairs. We then introduce a novel training-free Vision-Language Model (VLM)-based router, which dynamically selects the most suitable agent at each time step by aligning sub-goals with visual observations and historical actions. SkillNav obtains competitive results on commonly used benchmarks and establishes state-of-the-art generalization to the GSA-R2R, a benchmark with novel instruction styles and unseen environments.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、自然言語命令を解釈し、複雑な3D環境をナビゲートするエージェントにとって大きな課題となる。
最近の進歩は、大規模な事前学習とデータ拡張によって推進されているが、現在の手法は、特に複雑な空間的および時間的推論が必要な場合に、目に見えないシナリオへの一般化に苦慮している。
本研究では,TransformerベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュール型フレームワークであるSkillNavを提案する。
本手法は,ナビゲーションを解釈可能な原子技術(例えば,垂直移動,領域と領域の同定,停止,一時停止)に分解し,それぞれが特殊エージェントによって処理される。
手動データアノテーションを使わずに、ターゲットとするスキルトレーニングを支援するために、多種多様で言語的に自然な、スキル固有の命令-軌道ペアを生成する合成データセットパイプラインを構築した。
そこで我々は,視覚的観察と歴史的行動にサブゴールを合わせることで,各ステップで最適なエージェントを動的に選択する,新しいトレーニングフリーなビジョン・ランゲージ・モデル(VLM)ベースのルータを提案する。
SkillNavはよく使われるベンチマークの競合結果を取得し、新しい命令スタイルと目に見えない環境を備えたベンチマークであるGSA-R2Rに最先端の一般化を確立する。
関連論文リスト
- VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - General Scene Adaptation for Vision-and-Language Navigation [19.215183093931785]
VLN(Vision-and-Language Navigation)タスクは、主に複数の環境にまたがる個々の命令のワンタイム実行に基づいてエージェントを評価する。
GSA-VLNは、エージェントが特定のシーン内でナビゲーション命令を実行し、時間とともにパフォーマンスを向上させるために同時にそれに対応することを要求する新しいタスクである。
本稿では,新しいデータセット GSA-R2R を提案し,R2R データセットに対する環境と指示の多様性と量を大幅に拡張する。
論文 参考訳(メタデータ) (2025-01-29T03:57:56Z) - SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-07T06:12:53Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Accessible Instruction-Following Agent [0.0]
UVLNは、言語間視覚言語ナビゲーションのための新しい機械翻訳命令拡張フレームワークである。
我々は、標準VLNトレーニング目標を言語間エンコーダを介して多言語設定に拡張する。
Room Across Roomデータセットによる実験は、我々のアプローチの有効性を証明する。
論文 参考訳(メタデータ) (2023-05-08T23:57:26Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - A modular vision language navigation and manipulation framework for long
horizon compositional tasks in indoor environment [9.159670926457975]
MoViLanは視覚的に基礎づけられた自然言語の指示を実行するための新しいフレームワークです。
ナビゲーションとオブジェクトインタラクションの結合問題に対処するためのモジュール型アプローチを提案する。
具体的には,室内環境における新しいジオメトリ認識マッピング手法を提案する。
論文 参考訳(メタデータ) (2021-01-19T23:05:43Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。