論文の概要: AIGeN: An Adversarial Approach for Instruction Generation in VLN
- arxiv url: http://arxiv.org/abs/2404.10054v1
- Date: Mon, 15 Apr 2024 18:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 20:58:20.013972
- Title: AIGeN: An Adversarial Approach for Instruction Generation in VLN
- Title(参考訳): AIGeN: VLNにおけるインストラクション生成の逆アプローチ
- Authors: Niyati Rawal, Roberto Bigazzi, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: 本稿では,GAN(Generative Adrial Networks)にインスパイアされた新しいアーキテクチャであるAIGeNを提案する。
本研究では,Habitat-Matterport 3Dデータセット(HM3D)上でAIGeNを用いた217K軌道の合成命令を生成し,市販VLN法の性能向上を示す。
- 参考スコア(独自算出の注目度): 35.932836008492174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last few years, the research interest in Vision-and-Language Navigation (VLN) has grown significantly. VLN is a challenging task that involves an agent following human instructions and navigating in a previously unknown environment to reach a specified goal. Recent work in literature focuses on different ways to augment the available datasets of instructions for improving navigation performance by exploiting synthetic training data. In this work, we propose AIGeN, a novel architecture inspired by Generative Adversarial Networks (GANs) that produces meaningful and well-formed synthetic instructions to improve navigation agents' performance. The model is composed of a Transformer decoder (GPT-2) and a Transformer encoder (BERT). During the training phase, the decoder generates sentences for a sequence of images describing the agent's path to a particular point while the encoder discriminates between real and fake instructions. Experimentally, we evaluate the quality of the generated instructions and perform extensive ablation studies. Additionally, we generate synthetic instructions for 217K trajectories using AIGeN on Habitat-Matterport 3D Dataset (HM3D) and show an improvement in the performance of an off-the-shelf VLN method. The validation analysis of our proposal is conducted on REVERIE and R2R and highlights the promising aspects of our proposal, achieving state-of-the-art performance.
- Abstract(参考訳): 近年,VLN(Vision-and-Language Navigation)研究への関心が高まっている。
VLNは、エージェントが人間の指示に従い、これまで未知の環境をナビゲートして特定の目標を達成するという、困難なタスクである。
近年の文献研究は、合成トレーニングデータを利用してナビゲーション性能を向上させるために利用可能な命令のデータセットを拡大する様々な方法に焦点を当てている。
本研究では,GAN(Generative Adversarial Networks)にインスパイアされた新しいアーキテクチャであるAIGeNを提案する。
モデルは Transformer decoder (GPT-2) と Transformer encoder (BERT) で構成されている。
トレーニングフェーズ中に、デコーダは、エージェントの特定の時点への経路を記述する一連の画像の文を生成し、エンコーダは、実と偽の命令を識別する。
実験により,生成した命令の質を評価し,広範囲にわたるアブレーション研究を行った。
さらに,Habitat-Matterport 3D Dataset (HM3D)上でAIGeNを用いた217K軌道の合成命令を生成し,市販VLN法の性能向上を示す。
提案手法の検証分析はREVERIEとR2Rで行われ,提案手法の将来性を強調した。
関連論文リスト
- TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings [61.9257731511557]
視覚言語モデル(VLM)を最適化するためのテキストガイド付きLLaVA(TG-LLaVA)を提案する。
学習可能な潜伏埋め込みをブリッジとして使用し、テキスト命令を分析し、視覚エンコーダに解析結果をガイダンスとして付加する。
テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-09-15T00:38:34Z) - Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning [6.06616040517684]
DAAGは、拡散モデルを使って動画を変換することで、エージェントの過去の経験を再ラベルする。
大規模言語モデルは、人間の監督を必要とせずに、この自律的なプロセスを編成する。
その結果、DAAGは報酬検知器の学習を改善し、過去の経験を移譲し、新しいタスクを取得する。
論文 参考訳(メタデータ) (2024-07-30T13:01:31Z) - Vision-and-Language Navigation Generative Pretrained Transformer [0.0]
VLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer)
トランスフォーマーデコーダモデル(GPT2)を採用してトラジェクトリシーケンスの依存関係をモデル化し、歴史的エンコーディングモジュールの必要性を回避している。
VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
論文 参考訳(メタデータ) (2024-05-27T09:42:04Z) - Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z) - Goal-Guided Transformer-Enabled Reinforcement Learning for Efficient
Autonomous Navigation [15.501449762687148]
本稿ではゴール誘導ナビゲーションのためのゴール誘導トランスフォーマー対応強化学習(GTRL)手法を提案する。
本手法は,DRL学習プロセスのデータ効率を大幅に向上させる,主にゴール関連機能に焦点を当てたシーン表現の動機付けである。
データ効率, 性能, 堅牢性, および sim-to-real 一般化の観点から, シミュレーションと実世界の実験結果の両方が, 我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-01-01T07:14:30Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - Generative Adversarial Networks for Annotated Data Augmentation in Data
Sparse NLU [0.76146285961466]
データスパーシティは、自然言語理解におけるモデル開発に関連する重要な課題の1つです。
GAN (Sequence Generative Adversarial Network) を用いたトレーニングデータ拡張によるNLUモデルの性能向上について報告する。
本実験により, 逐次生成逆数ネットワークを用いて生成した合成データにより, 複数の指標間で大きな性能向上が得られた。
論文 参考訳(メタデータ) (2020-12-09T20:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。