論文の概要: Airbert: In-domain Pretraining for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2108.09105v1
- Date: Fri, 20 Aug 2021 10:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 19:13:40.986954
- Title: Airbert: In-domain Pretraining for Vision-and-Language Navigation
- Title(参考訳): airbert: 視覚言語ナビゲーションのためのドメイン内事前トレーニング
- Authors: Pierre-Louis Guhur, Makarand Tapaswi, Shizhe Chen, Ivan Laptev,
Cordelia Schmid
- Abstract要約: ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
- 参考スコア(独自算出の注目度): 91.03849833486974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-language navigation (VLN) aims to enable embodied agents to
navigate in realistic environments using natural language instructions. Given
the scarcity of domain-specific training data and the high diversity of image
and language inputs, the generalization of VLN agents to unseen environments
remains challenging. Recent methods explore pretraining to improve
generalization, however, the use of generic image-caption datasets or existing
small-scale VLN environments is suboptimal and results in limited improvements.
In this work, we introduce BnB, a large-scale and diverse in-domain VLN
dataset. We first collect image-caption (IC) pairs from hundreds of thousands
of listings from online rental marketplaces. Using IC pairs we next propose
automatic strategies to generate millions of VLN path-instruction (PI) pairs.
We further propose a shuffling loss that improves the learning of temporal
order inside PI pairs. We use BnB pretrain our Airbert model that can be
adapted to discriminative and generative settings and show that it outperforms
state of the art for Room-to-Room (R2R) navigation and Remote Referring
Expression (REVERIE) benchmarks. Moreover, our in-domain pretraining
significantly increases performance on a challenging few-shot VLN evaluation,
where we train the model only on VLN instructions from a few houses.
- Abstract(参考訳): ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
ドメイン固有のトレーニングデータの不足や画像や言語入力の多様性の高さを考えると、VLNエージェントの未知環境への一般化は依然として困難である。
近年, 一般化のための事前学習が検討されているが, 汎用画像キャプチャーデータセットや既存の小型VLN環境の利用は最適ではない。
本稿では,大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
私たちはまず、オンラインレンタルマーケットプレイスから何十万ものリストから画像キャプチャ(IC)ペアを収集します。
次に、ICペアを用いて、数百万のVLNパス命令(PI)ペアを生成する自動戦略を提案する。
さらに,PIペア内の時間秩序の学習を改善するシャッフル損失を提案する。
差別的かつ生成的な設定に適応可能なBnBプレトレーニングのAirbertモデルを使用し、Room-to-Room(R2R)ナビゲーションとRemote Referring Expression(REVERIE)ベンチマークの最先端性を示す。
さらに、ドメイン内事前トレーニングは、いくつかの住宅からのVLN命令でのみモデルをトレーニングする、挑戦的な数ショットのVLN評価において、性能を著しく向上させる。
関連論文リスト
- Continual Vision-and-Language Navigation [18.20829279972436]
VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。
既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、大きな制限をもたらす。
本稿では,連続的な学習プロセスを通じて訓練されたエージェントを評価するために,CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-22T09:15:36Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - Masked Path Modeling for Vision-and-Language Navigation [41.7517631477082]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)エージェントは、自然言語の指示に従うことで現実世界の環境をナビゲートするように訓練されている。
以前のアプローチでは、トレーニング中に追加の監督を導入することでこの問題に対処しようと試みていた。
本稿では,下流ナビゲーションタスクに自己コンパイルデータを用いてエージェントを事前訓練する,マスク付きパスモデリング(MPM)手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:20:20Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Analyzing Generalization of Vision and Language Navigation to Unseen
Outdoor Areas [19.353847681872608]
視覚と言語ナビゲーション(VLN)は、視覚的な言語理解の課題である。
室内のVLNとは対照的に、未確認データに対する屋外VLNの利得の大部分は、ジャンクション型埋め込みやデルタの向きといった特徴によるものである。
これらの結果は,VLNタスクの大規模化と地理的環境の多様性を要求され,都市環境のグラフ表現に偏っていることを示している。
論文 参考訳(メタデータ) (2022-03-25T18:06:14Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。