論文の概要: Multimodal Text Style Transfer for Outdoor Vision-and-Language
Navigation
- arxiv url: http://arxiv.org/abs/2007.00229v3
- Date: Thu, 4 Feb 2021 04:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 21:43:04.995022
- Title: Multimodal Text Style Transfer for Outdoor Vision-and-Language
Navigation
- Title(参考訳): 屋外視言語ナビゲーションのためのマルチモーダルテキストスタイル転送
- Authors: Wanrong Zhu, Xin Eric Wang, Tsu-Jui Fu, An Yan, Pradyumna Narayana,
Kazoo Sone, Sugato Basu, William Yang Wang
- Abstract要約: 本稿では,屋外ナビゲーションタスクのためのマルチモーダルテキストスタイル変換(MTST)学習手法を提案する。
まず、Google Maps APIで生成された命令のスタイルを転送し、拡張された外部ナビゲーションデータセットでナビゲータを事前訓練することで、ナビゲーションデータを強化します。
実験結果から, MTST学習手法はモデルに依存しないことが明らかとなり, MTSTアプローチは屋外VLNタスクのベースラインモデルよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 71.67507925788577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most challenging topics in Natural Language Processing (NLP) is
visually-grounded language understanding and reasoning. Outdoor
vision-and-language navigation (VLN) is such a task where an agent follows
natural language instructions and navigates a real-life urban environment. Due
to the lack of human-annotated instructions that illustrate intricate urban
scenes, outdoor VLN remains a challenging task to solve. This paper introduces
a Multimodal Text Style Transfer (MTST) learning approach and leverages
external multimodal resources to mitigate data scarcity in outdoor navigation
tasks. We first enrich the navigation data by transferring the style of the
instructions generated by Google Maps API, then pre-train the navigator with
the augmented external outdoor navigation dataset. Experimental results show
that our MTST learning approach is model-agnostic, and our MTST approach
significantly outperforms the baseline models on the outdoor VLN task,
improving task completion rate by 8.7% relatively on the test set.
- Abstract(参考訳): 自然言語処理(NLP)における最も難しいトピックの1つは、視覚的な言語理解と推論である。
屋外視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従い、実際の都市環境をナビゲートするタスクである。
複雑な都市景観を示す人手による指示が不足しているため、屋外のVLNは解決が困難な課題である。
本稿では、マルチモーダルテキストスタイル変換(MTST)学習手法を導入し、外部のマルチモーダルリソースを活用して、屋外ナビゲーションタスクにおけるデータの不足を軽減する。
まず、Google Maps APIで生成された命令のスタイルを転送し、拡張された外部ナビゲーションデータセットでナビゲータを事前訓練することで、ナビゲーションデータを強化します。
実験結果から, MTST学習手法はモデルに依存しないことが明らかとなり, MTSTアプローチは屋外VLNタスクのベースラインモデルよりも有意に優れ, タスク完了率を8.7%向上させることができた。
関連論文リスト
- VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language
Navigation [59.3649071376364]
既存のVLN法の性能は、ナビゲーション環境の多様性の不足と限られたトレーニングデータによって制限される。
VLN-Videoは、米国内の複数の都市において、自動生成ナビゲーション命令で動画を駆動する際の多様な屋外環境を利用する。
VLN-Videoは従来の最先端モデルのタスク完了率2.1%を大きく上回っている。
論文 参考訳(メタデータ) (2024-02-05T22:20:19Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Analyzing Generalization of Vision and Language Navigation to Unseen
Outdoor Areas [19.353847681872608]
視覚と言語ナビゲーション(VLN)は、視覚的な言語理解の課題である。
室内のVLNとは対照的に、未確認データに対する屋外VLNの利得の大部分は、ジャンクション型埋め込みやデルタの向きといった特徴によるものである。
これらの結果は,VLNタスクの大規模化と地理的環境の多様性を要求され,都市環境のグラフ表現に偏っていることを示している。
論文 参考訳(メタデータ) (2022-03-25T18:06:14Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。