論文の概要: Bridging the visual gap in VLN via semantically richer instructions
- arxiv url: http://arxiv.org/abs/2210.15565v1
- Date: Thu, 27 Oct 2022 15:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:38:35.393372
- Title: Bridging the visual gap in VLN via semantically richer instructions
- Title(参考訳): 意味豊かな指示によるVLNの視覚的ギャップのブリッジ
- Authors: Joaquin Ossand\'on, Benjamin Earle, \'Alvaro Soto
- Abstract要約: 現状のモデルでは、限られた、あるいは全く視覚的データを受け取らない場合、深刻な影響を受けないことが示される。
より明示的な視覚情報の導入を促進する新しいデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 3.5789352263336847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Visual-and-Language Navigation (VLN) task requires understanding a
textual instruction to navigate a natural indoor environment using only visual
information. While this is a trivial task for most humans, it is still an open
problem for AI models. In this work, we hypothesize that poor use of the visual
information available is at the core of the low performance of current models.
To support this hypothesis, we provide experimental evidence showing that
state-of-the-art models are not severely affected when they receive just
limited or even no visual data, indicating a strong overfitting to the textual
instructions. To encourage a more suitable use of the visual information, we
propose a new data augmentation method that fosters the inclusion of more
explicit visual information in the generation of textual navigational
instructions. Our main intuition is that current VLN datasets include textual
instructions that are intended to inform an expert navigator, such as a human,
but not a beginner visual navigational agent, such as a randomly initialized DL
model. Specifically, to bridge the visual semantic gap of current VLN datasets,
we take advantage of metadata available for the Matterport3D dataset that,
among others, includes information about object labels that are present in the
scenes. Training a state-of-the-art model with the new set of instructions
increase its performance by 8% in terms of success rate on unseen environments,
demonstrating the advantages of the proposed data augmentation method.
- Abstract(参考訳): Visual-and-Language Navigation (VLN)タスクでは、視覚情報のみを使用して自然の屋内環境をナビゲートするためのテキスト命令を理解する必要がある。
これはほとんどの人間にとって簡単な作業だが、それでもAIモデルにはオープンな問題だ。
本研究は,現状の低性能モデルにおいて,利用可能な視覚情報の不十分な利用が中核にあることを仮定する。
この仮説を支持するために,現状のモデルが限られたあるいは全く視覚的データを受け取らない場合に深刻な影響を受けていないことを示す実験的な証拠を提供する。
より適切な視覚情報の利用を促すため,テキストナビゲーション命令の生成において,より明示的な視覚情報の導入を促進する新しいデータ拡張手法を提案する。
我々の主な直感は、現在のVLNデータセットは、人間のような専門家のナビゲータに通知するためのテキスト命令を含むが、ランダムに初期化されたDLモデルのような初心者の視覚的ナビゲーションエージェントは含まないことである。
具体的には、現在のvlnデータセットの視覚的意味ギャップを埋めるため、matterport3dデータセットで利用可能なメタデータを利用して、シーンに存在するオブジェクトラベルに関する情報を含む。
新しい命令セットによる最先端モデルのトレーニングは、未発見の環境での成功率の点で、そのパフォーマンスを8%向上させ、提案するデータ拡張手法の利点を実証する。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - ICT: Image-Object Cross-Level Trusted Intervention for Mitigating Object Hallucination in Large Vision-Language Models [32.24716280370563]
ICTは、異なるレベルの視覚情報に焦点を移すための介入方向を計算する軽量でトレーニング不要な手法である。
少量のデータで強力なパフォーマンスを実現し、さまざまなデータセットやモデルにまたがってうまく一般化する。
論文 参考訳(メタデータ) (2024-11-22T12:22:21Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Ignorance is Bliss: Robust Control via Information Gating [60.17644038829572]
情報パーシモニーは、ノイズや突発的相関に頑健であることにより、より良い一般化を実現する学習表現に有用な帰納的バイアスを提供する。
本稿では,タスクに必要な最小限の情報を識別する類似表現を学習する手段として,テキスト情報ゲーティングを提案する。
論文 参考訳(メタデータ) (2023-03-10T18:31:50Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Leveraging Unlabeled Data for Sketch-based Understanding [11.95015190261688]
スケッチベースモデルを改善するためにラベルのないデータを使用することについて検討する。
以上の結果から,スケッチBYOLの優位性は,他の自己監督的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-04-26T18:13:30Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。