論文の概要: CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations
- arxiv url: http://arxiv.org/abs/2207.02185v1
- Date: Tue, 5 Jul 2022 17:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 13:21:32.823134
- Title: CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations
- Title(参考訳): CLEAR: 言語間・環境に依存しない表現による視覚言語ナビゲーションの改善
- Authors: Jialu Li, Hao Tan, Mohit Bansal
- Abstract要約: VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
- 参考スコア(独自算出の注目度): 98.30038910061894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) tasks require an agent to navigate
through the environment based on language instructions. In this paper, we aim
to solve two key challenges in this task: utilizing multilingual instructions
for improved instruction-path grounding and navigating through new environments
that are unseen during training. To address these challenges, we propose CLEAR:
Cross-Lingual and Environment-Agnostic Representations. First, our agent learns
a shared and visually-aligned cross-lingual language representation for the
three languages (English, Hindi and Telugu) in the Room-Across-Room dataset.
Our language representation learning is guided by text pairs that are aligned
by visual information. Second, our agent learns an environment-agnostic visual
representation by maximizing the similarity between semantically-aligned image
pairs (with constraints on object-matching) from different environments. Our
environment agnostic visual representation can mitigate the environment bias
induced by low-level visual information. Empirically, on the Room-Across-Room
dataset, we show that our multilingual agent gets large improvements in all
metrics over the strong baseline model when generalizing to unseen environments
with the cross-lingual language representation and the environment-agnostic
visual representation. Furthermore, we show that our learned language and
visual representations can be successfully transferred to the Room-to-Room and
Cooperative Vision-and-Dialogue Navigation task, and present detailed
qualitative and quantitative generalization and grounding analysis. Our code is
available at https://github.com/jialuli-luka/CLEAR
- Abstract(参考訳): 視覚・言語ナビゲーション(VLN)タスクは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
本稿では,学習中に見つからない新しい環境をナビゲートし,命令パスのグラウンディングを改善するために多言語命令を利用する,という2つの課題を解決することを目的とする。
これらの課題に対処するため、我々はCLEAR: Cross-Lingual and Environment-Agnostic Representationsを提案する。
まず,ルームアクロスルームデータセットで3つの言語(英語,ヒンディー語,テルグ語)の共有言語と視覚的に連携した言語表現を学習する。
私たちの言語表現学習は、視覚情報で整列したテキストペアによって導かれる。
第2に,異なる環境から,意味的に整合したイメージペア間の類似性を最大化し,環境に依存しない視覚表現を学習する。
環境非依存の視覚表現は、低レベルの視覚情報によって引き起こされる環境バイアスを軽減することができる。
実演的に、Room-Across-Roomデータセット上で、我々の多言語エージェントは、言語間表現と環境に依存しない視覚表現を用いて、見知らぬ環境に一般化する際に、強いベースラインモデルに対して、全ての指標に大きな改善をもたらすことを示す。
さらに,我々の学習した言語と視覚表現を部屋間および協調的な視覚・ダイアログナビゲーションタスクにうまく移行できることを示すとともに,詳細な質的,定量的な一般化と接地分析を行う。
私たちのコードはhttps://github.com/jialuli-luka/CLEARで利用可能です。
関連論文リスト
- LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement
Learning [56.07190845063208]
具体的強化学習(RL)エージェントは、非言語タスクから間接的に言語を学習できるか?
エージェントが特定のオフィスを見つけることを目標とするオフィスナビゲーション環境を設計し、異なる建物(タスク)でオフィスロケーションが異なる。
我々は、RLエージェントが言語を間接的に学習できることを発見した。現在のメタRLアルゴリズムで訓練されたエージェントは、ホールドアウトレイアウトと言語フレーズでフロアプランを読むことに成功している。
論文 参考訳(メタデータ) (2023-06-14T09:48:48Z) - Accessible Instruction-Following Agent [0.0]
UVLNは、言語間視覚言語ナビゲーションのための新しい機械翻訳命令拡張フレームワークである。
我々は、標準VLNトレーニング目標を言語間エンコーダを介して多言語設定に拡張する。
Room Across Roomデータセットによる実験は、我々のアプローチの有効性を証明する。
論文 参考訳(メタデータ) (2023-05-08T23:57:26Z) - Graph based Environment Representation for Vision-and-Language
Navigation in Continuous Environments [20.114506226598508]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。
上記の問題を解決するために,新しい環境表現を提案する。
論文 参考訳(メタデータ) (2023-01-11T08:04:18Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z) - VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement
Learning [14.553086325168803]
テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。
環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。
目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
論文 参考訳(メタデータ) (2020-10-26T18:51:02Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。