論文の概要: Vision-Language Navigation with Random Environmental Mixup
- arxiv url: http://arxiv.org/abs/2106.07876v1
- Date: Tue, 15 Jun 2021 04:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:12:47.027592
- Title: Vision-Language Navigation with Random Environmental Mixup
- Title(参考訳): ランダム環境ミックスアップを用いた視覚言語ナビゲーション
- Authors: Chong Liu and Fengda Zhu and Xiaojun Chang and Xiaodan Liang and
Yi-Dong Shen
- Abstract要約: 視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
- 参考スコア(独自算出の注目度): 112.94609558723518
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language Navigation (VLN) tasks require an agent to navigate
step-by-step while perceiving the visual observations and comprehending a
natural language instruction. Large data bias, which is caused by the disparity
ratio between the small data scale and large navigation space, makes the VLN
task challenging. Previous works have proposed various data augmentation
methods to reduce data bias. However, these works do not explicitly reduce the
data bias across different house scenes. Therefore, the agent would overfit to
the seen scenes and achieve poor navigation performance in the unseen scenes.
To tackle this problem, we propose the Random Environmental Mixup (REM) method,
which generates cross-connected house scenes as augmented data via mixuping
environment. Specifically, we first select key viewpoints according to the room
connection graph for each scene. Then, we cross-connect the key views of
different scenes to construct augmented scenes. Finally, we generate augmented
instruction-path pairs in the cross-connected scenes. The experimental results
on benchmark datasets demonstrate that our augmentation data via REM help the
agent reduce its performance gap between the seen and unseen environment and
improve the overall performance, making our model the best existing approach on
the standard VLN benchmark.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
大規模なデータバイアスは、小さなデータスケールと大きなナビゲーションスペースの相違によるものであり、VLNタスクを困難にしている。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
しかし、これらの作業は、異なる家のシーン間でのデータバイアスを明示的に減らすものではない。
そのため、エージェントは見えないシーンに過度に適合し、目に見えないシーンではナビゲーション性能が劣る。
この問題に対処するため,混在環境による住宅シーンを付加データとして生成するRandom Environmental Mixup (REM)法を提案する。
具体的には、まず各シーンの部屋接続グラフに応じてキー視点を選択する。
そして、さまざまなシーンのキービューをクロス接続して、拡張シーンを構築します。
最後に,クロスコネクテッドシーンに拡張命令パスペアを生成する。
ベンチマークデータセットを用いた実験結果から,REMによる拡張データは,観測環境と見えない環境の間の性能ギャップを低減し,全体的な性能向上に役立ち,我々のモデルを標準VLNベンチマーク上で最高の既存アプローチとすることを示す。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Masked Path Modeling for Vision-and-Language Navigation [41.7517631477082]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)エージェントは、自然言語の指示に従うことで現実世界の環境をナビゲートするように訓練されている。
以前のアプローチでは、トレーニング中に追加の監督を導入することでこの問題に対処しようと試みていた。
本稿では,下流ナビゲーションタスクに自己コンパイルデータを用いてエージェントを事前訓練する,マスク付きパスモデリング(MPM)手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:20:20Z) - Ground then Navigate: Language-guided Navigation in Dynamic Scenes [13.870303451896248]
屋外環境での自律運転における視覚・言語ナビゲーション(VLN)問題について検討する。
テキストコマンドに対応するナビゲーション可能な領域を明示的にグラウンドすることで、この問題を解決する。
提案手法の有効性を検証するために, 定性的かつ定量的な実験結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T09:51:09Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Take the Scenic Route: Improving Generalization in Vision-and-Language
Navigation [44.019674347733506]
一般的なRoom-to-Room (R2R) VLNベンチマークを調査し、重要なことは、合成するデータの量だけでなく、どのように処理するかを知る。
R2Rベンチマークと既存の拡張手法の両方で使用される最短経路サンプリングは、エージェントのアクション空間におけるバイアスを符号化する。
次に、これらの行動先行は、既存の作品の貧弱な一般化に対する一つの説明を提供することを示す。
論文 参考訳(メタデータ) (2020-03-31T14:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。