論文の概要: Multi-View Learning for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2003.00857v3
- Date: Mon, 9 Mar 2020 21:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 03:54:01.294057
- Title: Multi-View Learning for Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのためのマルチビュー学習
- Authors: Qiaolin Xia, Xiujun Li, Chunyuan Li, Yonatan Bisk, Zhifang Sui,
Jianfeng Gao, Yejin Choi, Noah A. Smith
- Abstract要約: EveryOne(LEO)から学ぶことは、視覚環境でのナビゲーションを学ぶためのトレーニングパラダイムです。
命令間でパラメータを共有することで、限られたトレーニングデータからより効果的に学習する。
最近のRoom-to-Room(R2R)ベンチマークデータセットでは、LEOはgreedyエージェントよりも16%改善(絶対)されている。
- 参考スコア(独自算出の注目度): 163.20410080001324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to navigate in a visual environment following natural language
instructions is a challenging task because natural language instructions are
highly variable, ambiguous, and under-specified. In this paper, we present a
novel training paradigm, Learn from EveryOne (LEO), which leverages multiple
instructions (as different views) for the same trajectory to resolve language
ambiguity and improve generalization. By sharing parameters across
instructions, our approach learns more effectively from limited training data
and generalizes better in unseen environments. On the recent Room-to-Room (R2R)
benchmark dataset, LEO achieves 16% improvement (absolute) over a greedy agent
as the base agent (25.3% $\rightarrow$ 41.4%) in Success Rate weighted by Path
Length (SPL). Further, LEO is complementary to most existing models for
vision-and-language navigation, allowing for easy integration with the existing
techniques, leading to LEO+, which creates the new state of the art, pushing
the R2R benchmark to 62% (9% absolute improvement).
- Abstract(参考訳): 自然言語命令が高度に可変であり、曖昧で、具体的でないため、自然言語命令に従って視覚環境をナビゲートする学習は難しい課題である。
本稿では,言語あいまいさを解消し,一般化を改善するために,同じ軌道に対して複数の命令(異なる視点として)を活用する新しい学習パラダイムであるLearning from EveryOne(LEO)を提案する。
命令間でパラメータを共有することで、限られたトレーニングデータからより効果的に学習し、目に見えない環境でより良く一般化する。
最近のRoom-to-Room(R2R)ベンチマークデータセットでは、LEOはベースエージェント(25.3%$\rightarrow$41.4%)としてgreedyエージェントよりも16%改善(絶対)されている。
さらに、LEOは視覚・言語ナビゲーションの既存のモデルの多くを補完するものであり、既存の技術と簡単に統合できるため、LEO+は技術の新たな状態を生み出し、R2Rベンチマークを62%(絶対的な改善は9%)まで押し上げている。
関連論文リスト
- Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - Accessible Instruction-Following Agent [0.0]
UVLNは、言語間視覚言語ナビゲーションのための新しい機械翻訳命令拡張フレームワークである。
我々は、標準VLNトレーニング目標を言語間エンコーダを介して多言語設定に拡張する。
Room Across Roomデータセットによる実験は、我々のアプローチの有効性を証明する。
論文 参考訳(メタデータ) (2023-05-08T23:57:26Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - FILM: Following Instructions in Language with Modular Methods [109.73082108379936]
近年のインボディード・インストラクションの手法は、模倣学習を用いてエンド・ツー・エンドで訓練されている。
本稿では,シーンのセマンティックマップを構築し,セマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。
以上の結果から,空間記憶の明示と意味探索の方針が,状態追跡とガイダンスのためのより強固で汎用的な表現を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-12T16:40:01Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。