論文の概要: Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2503.18065v1
- Date: Sun, 23 Mar 2025 13:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:40:02.296812
- Title: Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation
- Title(参考訳): 目に見えない:視覚言語ナビゲーション強化のための基礎モデルを用いた観察教育の書き直し
- Authors: Ziming Wei, Bingqian Lin, Yunshuang Nie, Jiaqi Chen, Shikui Ma, Hang Xu, Xiaodan Liang,
- Abstract要約: 視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。
離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
- 参考スコア(独自算出の注目度): 67.31811007549489
- License:
- Abstract: Data scarcity is a long-standing challenge in the Vision-Language Navigation (VLN) field, which extremely hinders the generalization of agents to unseen environments. Previous works primarily rely on additional simulator data or web-collected images/videos to improve the generalization. However, the simulator environments still face limited diversity, and the web-collected data often requires extensive labor to remove the noise. In this paper, we propose a Rewriting-driven AugMentation (RAM) paradigm for VLN, which directly creates the unseen observation-instruction pairs via rewriting human-annotated training data. Benefiting from our rewriting mechanism, new observation-instruction can be obtained in both simulator-free and labor-saving manners to promote generalization. Specifically, we first introduce Object-Enriched Observation Rewriting, where we combine Vision-Language Models (VLMs) and Large Language Models (LLMs) to derive rewritten object-enriched scene descriptions, enabling observation synthesis with diverse objects and spatial layouts via Text-to-Image Generation Models (T2IMs). Then, we propose Observation-Contrast Instruction Rewriting, which generates observation-aligned rewritten instructions by requiring LLMs to reason the difference between original and new observations. We further develop a mixing-then-focusing training strategy with a random observation cropping scheme, effectively enhancing data distribution diversity while suppressing augmentation data noise during training. Experiments on both the discrete environments (R2R, REVERIE, and R4R datasets) and continuous environments (R2R-CE dataset) show the superior performance and impressive generalization ability of our method. Code is available at https://github.com/SaDil13/VLN-RAM.
- Abstract(参考訳): データ不足は、Vision-Language Navigation (VLN)分野における長年にわたる課題であり、エージェントを目に見えない環境に一般化するのを非常に妨げている。
これまでの作業は主に、一般化を改善するために、シミュレータデータやWebコンパイルされた画像/ビデオに頼っていた。
しかし、シミュレータ環境は依然として限られた多様性に直面しており、Webで収集されたデータはノイズを取り除くのに多大な労力を必要とすることが多い。
本稿では,VLNのための書き直し駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。
具体的には、まず、視覚言語モデル(VLM)と大言語モデル(LLM)を組み合わせて、オブジェクトのリッチなシーン記述を導出し、テキスト・ツー・イメージ・ジェネレーション・モデル(T2IM)を介して、多様なオブジェクトと空間的レイアウトによる観察合成を可能にする。
そこで,本研究では,LLMにオリジナルと新しい観察の相違を推論させることで,観察整合性のある書き直し命令を生成する観察コントラスト命令書換えを提案する。
さらに,無作為な観察収穫方式による混合焦点学習戦略を開発し,トレーニング中のデータノイズの増大を抑制しながら,データ分布の多様性を効果的に向上させる。
離散環境(R2R,REVERIE,R4Rデータセット)と連続環境(R2R-CEデータセット)の両方における実験は,本手法の優れた性能と優れた一般化能力を示している。
コードはhttps://github.com/SaDil13/VLN-RAMで入手できる。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study [41.84915013818794]
The Natural Language to Visualization (NL2Vis) taskは、自然言語記述を接地テーブルの視覚表現に変換することを目的としている。
多くのディープラーニングベースのアプローチがNL2Vis向けに開発されているが、目に見えないデータベースや複数のテーブルにまたがるデータの視覚化には課題が続いている。
本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,その可能性を評価するための実証的研究を行う。
論文 参考訳(メタデータ) (2024-04-26T03:25:35Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Rank-N-Contrast: Learning Continuous Representations for Regression [28.926518084216607]
Rank-N-Contrast(RNC)は、ターゲット空間のランクに基づいて、サンプルを互いに対比することで、回帰の連続的な表現を学習するフレームワークである。
RNCは、学習された表現の望ましい順序を目標命令に従って保証する。
RNCは最先端のパフォーマンスを達成し、データ効率の向上、ターゲットの刺激に対する堅牢性、データの破損など、興味深い特性を強調している。
論文 参考訳(メタデータ) (2022-10-03T19:00:38Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。