論文の概要: Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations
- arxiv url: http://arxiv.org/abs/2506.08566v1
- Date: Tue, 10 Jun 2025 08:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.960979
- Title: Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations
- Title(参考訳): 微粒なアライメントアノテーションを組み込んだ視覚言語ナビゲーション命令の生成
- Authors: Yibo Cui, Liang Xie, Yu Zhao, Jiawei Sun, Erwei Yin,
- Abstract要約: Vision-Language Navigation (VLN)は、視覚認識と自然言語命令を統合することで、インテリジェントエージェントが環境をナビゲートすることを可能にする。
既存のデータセットは、主にグローバルな命令-軌道マッチング、サブインストラクションレベルとエンティティレベルのアライメントを無視している。
FCA-NIGは2段階の微粒なクロスモーダルアノテーションでナビゲーション命令を自動生成するフレームワークである。
- 参考スコア(独自算出の注目度): 4.483463511271561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Navigation (VLN) enables intelligent agents to navigate environments by integrating visual perception and natural language instructions, yet faces significant challenges due to the scarcity of fine-grained cross-modal alignment annotations. Existing datasets primarily focus on global instruction-trajectory matching, neglecting sub-instruction-level and entity-level alignments critical for accurate navigation action decision-making. To address this limitation, we propose FCA-NIG, a generative framework that automatically constructs navigation instructions with dual-level fine-grained cross-modal annotations. In this framework, an augmented trajectory is first divided into sub-trajectories, which are then processed through GLIP-based landmark detection, crafted instruction construction, OFA-Speaker based R2R-like instruction generation, and CLIP-powered entity selection, generating sub-instruction-trajectory pairs with entity-landmark annotations. Finally, these sub-pairs are aggregated to form a complete instruction-trajectory pair. The framework generates the FCA-R2R dataset, the first large-scale augmentation dataset featuring precise sub-instruction-sub-trajectory and entity-landmark alignments. Extensive experiments demonstrate that training with FCA-R2R significantly improves the performance of multiple state-of-the-art VLN agents, including SF, EnvDrop, RecBERT, and HAMT. Incorporating sub-instruction-trajectory alignment enhances agents' state awareness and decision accuracy, while entity-landmark alignment further boosts navigation performance and generalization. These results highlight the effectiveness of FCA-NIG in generating high-quality, scalable training data without manual annotation, advancing fine-grained cross-modal learning in complex navigation tasks.
- Abstract(参考訳): Vision-Language Navigation (VLN)は、視覚認識と自然言語命令を統合することで、インテリジェントエージェントが環境をナビゲートすることを可能にするが、粒度の細かいクロスモーダルアライメントアノテーションが不足しているため、大きな課題に直面している。
既存のデータセットは主に、グローバルな命令-軌道マッチング、サブインストラクションレベルとエンティティレベルのアライメントを無視し、正確なナビゲーションアクション決定に不可欠である。
この制限に対処するために、二重レベル細粒度クロスモーダルアノテーションでナビゲーション命令を自動的に構築する生成フレームワークであるFCA-NIGを提案する。
このフレームワークでは、拡張軌跡をまずサブトラジェクトリに分割し、GLIPベースのランドマーク検出、クラフトインストラクション構築、OFA-SpeakerベースのR2Rライクな命令生成、CLIPベースのエンティティセレクション、エンティティランドマークアノテーションによるサブインストラクトリ-トラジェクトリペアを生成する。
最後に、これらのサブペアは、完全な命令-軌道対を形成するために集約される。
このフレームワークは、精密なサブインストラクション-サブ軌道とエンティティランドマークアライメントを備えた最初の大規模拡張データセットであるFCA-R2Rデータセットを生成する。
FCA-R2Rによるトレーニングは、SF、EnvDrop、RecBERT、HAMTを含む複数の最先端VLNエージェントの性能を著しく改善することを示した。
サブインストラクション-軌道アライメントを組み込むことでエージェントの状態認識と決定精度が向上し、エンティティランドマークアライメントはナビゲーション性能と一般化をさらに向上する。
これらの結果は,手動のアノテーションを使わずに高品質でスケーラブルなトレーニングデータを生成する上で,FCA-NIGの有効性を強調した。
関連論文リスト
- EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation [111.0993686148283]
本稿では,EvolveNavと呼ばれるビジョンランゲージナビゲーションを向上するための,新たなSElf-imbodied embodied reasoningフレームワークを提案する。
EvolveNav は,(1) 形式化された CoT ラベルを用いたモデルトレーニング,(2) 自己表現的ポストトライニング,(2) モデルが自己強化 CoT ラベルとして独自の推論出力で反復的にトレーニングされ,監督の多様性を高めるための,形式化された CoT ラベルによるモデルトレーニング,の2つの段階で構成されている。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - ST-Booster: An Iterative SpatioTemporal Perception Booster for Vision-and-Language Navigation in Continuous Environments [1.9566515100805284]
VLN-CEは、自然言語命令に基づいて連続空間をナビゲートするエージェントを必要とする。
本稿では,マルチグラニュラリティ認識と命令認識推論による性能向上を目的としたナビゲーションブースターST-Boosterを紹介する。
大規模な実験と性能解析を行い、ST-Boosterが既存の最先端手法より優れていることを示した。
論文 参考訳(メタデータ) (2025-04-14T03:29:08Z) - Observation-Graph Interaction and Key-Detail Guidance for Vision and Language Navigation [7.150985186031763]
視覚と言語ナビゲーション(VLN)では、エージェントが自然言語の指示に従う環境をナビゲートする必要がある。
既存の手法は、ナビゲーション中に視覚的な観察と指示の詳細を効果的に統合するのに苦労することが多い。
OIKGは2つのキーコンポーネントを通してこれらの制限に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-03-14T02:05:16Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [2.733505168507872]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning [40.87681228125296]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、見えない環境でナビゲートする必要がある。
タスク完了のためには、エージェントは、指示、観察、ナビゲーション履歴を含む様々なナビゲーションモダリティを調整および統合する必要がある。
論文 参考訳(メタデータ) (2024-04-02T14:40:04Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language
Navigation [23.94546957057613]
クロスモーダルアライメントはビジョン・アンド・ランゲージ・ナビゲーション(VLN)の鍵となる課題である
本稿では,VLNタスクの事前学習パラダイムとして,GELA(Gunded Entity-Landmark Adaptive)を提案する。
論文 参考訳(メタデータ) (2023-08-24T06:25:20Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。