Fugu-MT 論文翻訳(概要): Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method

論文の概要: Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method

arxiv url: http://arxiv.org/abs/2412.09082v1
Date: Thu, 12 Dec 2024 09:08:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:56.594769
Title: Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method
Title（参考訳）: 長距離ビジョンランゲージナビゲーションに向けて:プラットフォーム,ベンチマーク,方法
Authors: Xinshuai Song, Weixing Chen, Yang Liu, Weikai Chen, Guanbin Li, Liang Lin,
Abstract要約: Long-Horizon Vision-Language Navigation (LH-VLN)は、連続したサブタスク間の長期計画と意思決定の一貫性を強調する新しいVLNタスクである。我々のプラットフォーム、ベンチマーク、メソッドは、ロバストなデータ生成パイプライン、包括的なモデル評価データセット、合理的なメトリクス、新しいVLNモデルでLH-VLNを供給する。
参考スコア（独自算出の注目度）: 94.74003109176581
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing Vision-Language Navigation (VLN) methods primarily focus on single-stage navigation, limiting their effectiveness in multi-stage and long-horizon tasks within complex and dynamic environments. To address these limitations, we propose a novel VLN task, named Long-Horizon Vision-Language Navigation (LH-VLN), which emphasizes long-term planning and decision consistency across consecutive subtasks. Furthermore, to support LH-VLN, we develop an automated data generation platform NavGen, which constructs datasets with complex task structures and improves data utility through a bidirectional, multi-granularity generation approach. To accurately evaluate complex tasks, we construct the Long-Horizon Planning and Reasoning in VLN (LHPR-VLN) benchmark consisting of 3,260 tasks with an average of 150 task steps, serving as the first dataset specifically designed for the long-horizon vision-language navigation task. Furthermore, we propose Independent Success Rate (ISR), Conditional Success Rate (CSR), and CSR weight by Ground Truth (CGT) metrics, to provide fine-grained assessments of task completion. To improve model adaptability in complex tasks, we propose a novel Multi-Granularity Dynamic Memory (MGDM) module that integrates short-term memory blurring with long-term memory retrieval to enable flexible navigation in dynamic environments. Our platform, benchmark and method supply LH-VLN with a robust data generation pipeline, comprehensive model evaluation dataset, reasonable metrics, and a novel VLN model, establishing a foundational framework for advancing LH-VLN.
Abstract（参考訳）: 既存のVision-Language Navigation (VLN) 手法は主にシングルステージナビゲーションに重点を置いており、複雑な環境と動的環境におけるマルチステージタスクとロングホライゾンタスクの有効性を制限している。これらの制約に対処するため,Long-Horizon Vision-Language Navigation (LH-VLN) と呼ばれる新しいVLNタスクを提案する。さらに、LH-VLNをサポートするために、複雑なタスク構造を持つデータセットを構築し、双方向多粒度生成アプローチによりデータの有用性を向上させる自動データ生成プラットフォームNavGenを開発した。複雑なタスクを正確に評価するために,3,260のタスクと平均150のタスクステップからなるVLN(LHPR-VLN)ベンチマークを用いて,Long-Horizon Planning and Reasoningを構築した。さらに、タスク完了のきめ細かい評価を行うために、独立成功率(ISR)、条件付き成功率(CSR)、CSR重み(CGT)の測定値を提案する。複雑なタスクにおけるモデル適応性を改善するために,短期記憶のぼかしと長期記憶の検索を統合し,動的環境における柔軟なナビゲーションを可能にする新しいMGDM(Multi-Granularity Dynamic Memory)モジュールを提案する。我々のプラットフォーム、ベンチマーク、メソッドは、堅牢なデータ生成パイプライン、包括的なモデル評価データセット、合理的なメトリクス、新しいVLNモデルでLH-VLNを供給し、LH-VLNを前進させるための基盤となる枠組みを確立した。

関連論文リスト

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:59Z)
A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。 CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-11T20:51:58Z)
FlexVLN: Flexible Adaptation for Diverse Vision-and-Language Navigation Tasks [13.969116430006215]
視覚・言語ナビゲーション(VLN)の革新的階層的アプローチであるFlexVLNを提案する。教師付き学習ベースのインストラクションフォロワのナビゲーション能力とLLM Plannerの堅牢な一般化能力を統合する。一般化能力を評価するために,REVERIE,SOON,CVDN-targetをドメイン外のデータセットとみなす。
論文参考訳（メタデータ） (2025-03-18T06:58:41Z)
World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。 VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文参考訳（メタデータ） (2024-12-09T11:40:54Z)
Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文参考訳（メタデータ） (2024-10-09T17:29:01Z)
FLAME: Learning to Navigate with Multimodal LLM in Urban Environments [12.428873051106702]
大規模言語モデル(LLM)は視覚・言語ナビゲーション(VLN)タスクの可能性を実証している。 LLMは専門的なナビゲーションタスクに苦労し、専門的なVLNモデルと比較すると、最適以下の性能が得られる。本稿では,都市VLNタスク用に設計された新しいマルチモーダルLLMエージェントとアーキテクチャであるFLAMEを紹介する。
論文参考訳（メタデータ） (2024-08-20T17:57:46Z)
DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM [23.551036494221222]
Visual Language Tracking (VLT)は、指定されたオブジェクトの正確な追跡のために、ビデオから自然言語記述を統合することで、単一のオブジェクト追跡(SOT)を強化する。ほとんどのVLTベンチマークは、単一の粒度で注釈付けされており、科学的ガイダンスを提供するための一貫性のあるセマンティックフレームワークが欠如している。 DTLLM-VLTは,環境の多様性を高めるために,多粒度テキストを自動的に生成する。
論文参考訳（メタデータ） (2024-05-20T16:01:01Z)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文参考訳（メタデータ） (2024-03-12T07:27:02Z)
Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文参考訳（メタデータ） (2023-08-27T13:17:34Z)
ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文参考訳（メタデータ） (2022-10-18T17:45:06Z)
A Recurrent Vision-and-Language BERT for Navigation [54.059606864535304]
本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
論文参考訳（メタデータ） (2020-11-26T00:23:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。