論文の概要: Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language
Navigation
- arxiv url: http://arxiv.org/abs/2308.12587v1
- Date: Thu, 24 Aug 2023 06:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 15:07:24.690764
- Title: Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language
Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための接地型エンティティランドマーク適応事前学習
- Authors: Yibo Cui, Liang Xie, Yakun Zhang, Meishan Zhang, Ye Yan, Erwei Yin
- Abstract要約: クロスモーダルアライメントはビジョン・アンド・ランゲージ・ナビゲーション(VLN)の鍵となる課題である
本稿では,VLNタスクの事前学習パラダイムとして,GELA(Gunded Entity-Landmark Adaptive)を提案する。
- 参考スコア(独自算出の注目度): 23.94546957057613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal alignment is one key challenge for Vision-and-Language Navigation
(VLN). Most existing studies concentrate on mapping the global instruction or
single sub-instruction to the corresponding trajectory. However, another
critical problem of achieving fine-grained alignment at the entity level is
seldom considered. To address this problem, we propose a novel Grounded
Entity-Landmark Adaptive (GELA) pre-training paradigm for VLN tasks. To achieve
the adaptive pre-training paradigm, we first introduce grounded entity-landmark
human annotations into the Room-to-Room (R2R) dataset, named GEL-R2R.
Additionally, we adopt three grounded entity-landmark adaptive pre-training
objectives: 1) entity phrase prediction, 2) landmark bounding box prediction,
and 3) entity-landmark semantic alignment, which explicitly supervise the
learning of fine-grained cross-modal alignment between entity phrases and
environment landmarks. Finally, we validate our model on two downstream
benchmarks: VLN with descriptive instructions (R2R) and dialogue instructions
(CVDN). The comprehensive experiments show that our GELA model achieves
state-of-the-art results on both tasks, demonstrating its effectiveness and
generalizability.
- Abstract(参考訳): クロスモーダルアライメントは、VLN(Vision-and-Language Navigation)の重要な課題である。
既存の研究の多くは、グローバルな命令や単一サブインストラクションを対応する軌道にマッピングすることに集中している。
しかし、エンティティレベルできめ細かいアライメントを達成するというもう一つの重要な問題は、ほとんど考慮されない。
この問題に対処するため,VLNタスクのための新しい事前学習パラダイムであるGunded Entity-Landmark Adaptive (GELA)を提案する。
適応型事前学習パラダイムを実現するため,まず,GEL-R2Rと呼ばれるRoom-to-Room(R2R)データセットに,接地されたエンティティランドマークのヒューマンアノテーションを導入する。
さらに,3つの基礎的実体ランドマーク適応型事前学習目標も採用する。
1)エンティティ句予測、
2)ランドマーク境界ボックス予測、及び
3)エンティティ・ランドマーク・セマンティクスアライメントは、エンティティ句と環境ランドマークの間のきめ細かいクロスモーダルアライメントの学習を明示的に監督する。
最後に,vln with descriptive instructions (r2r) と対話命令 (cvdn) の2つのダウンストリームベンチマークでモデルを検証する。
包括的実験により,GELAモデルが両課題の最先端化を実現し,その有効性と一般化性を示した。
関連論文リスト
- DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning [40.87681228125296]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、見えない環境でナビゲートする必要がある。
タスク完了のためには、エージェントは、指示、観察、ナビゲーション履歴を含む様々なナビゲーションモダリティを調整および統合する必要がある。
論文 参考訳(メタデータ) (2024-04-02T14:40:04Z) - Co-guiding for Multi-intent Spoken Language Understanding [53.30511968323911]
本稿では,2つのタスク間の相互指導を実現するための2段階のフレームワークを実装した,コガイドネットと呼ばれる新しいモデルを提案する。
第1段階では,単一タスクによる教師付きコントラスト学習を提案し,第2段階ではコガイドによる教師付きコントラスト学習を提案する。
マルチインテリジェントSLU実験の結果,我々のモデルは既存のモデルよりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-22T08:06:22Z) - Ground then Navigate: Language-guided Navigation in Dynamic Scenes [13.870303451896248]
屋外環境での自律運転における視覚・言語ナビゲーション(VLN)問題について検討する。
テキストコマンドに対応するナビゲーション可能な領域を明示的にグラウンドすることで、この問題を解決する。
提案手法の有効性を検証するために, 定性的かつ定量的な実験結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T09:51:09Z) - Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised
Referring Expression Grounding [214.8003571700285]
Referring Expression Grounding (REG) は、言語表現によって記述されたイメージにおいて特定のターゲットをグラウンドすることを目的としている。
我々は、エンティティ強化適応再構築ネットワーク(EARN)を設計する。
EARNには、エンティティの強化、適応的な接地、協調的な再構築の3つのモジュールが含まれている。
論文 参考訳(メタデータ) (2022-07-18T05:30:45Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Grounded Situation Recognition [56.18102368133022]
画像の構造的要約を生成することを必要とする課題であるグラウンドドコンディション認識(GSR)を導入する。
GSRはセマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズという重要な技術的課題を提示している。
我々は,条件付きクエリ,視覚連鎖,接地型セマンティック・アウェアネス・イメージ検索の3つのモデルによって実現される3つの将来方向について,最初の知見を示す。
論文 参考訳(メタデータ) (2020-03-26T17:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。