論文の概要: Language and Visual Entity Relationship Graph for Agent Navigation
- arxiv url: http://arxiv.org/abs/2010.09304v2
- Date: Fri, 25 Dec 2020 02:43:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 22:08:40.713341
- Title: Language and Visual Entity Relationship Graph for Agent Navigation
- Title(参考訳): エージェントナビゲーションのための言語とビジュアルエンティティ関係グラフ
- Authors: Yicong Hong, Cristian Rodriguez-Opazo, Yuankai Qi, Qi Wu, Stephen
Gould
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
- 参考スコア(独自算出の注目度): 54.059606864535304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires an agent to navigate in a
real-world environment following natural language instructions. From both the
textual and visual perspectives, we find that the relationships among the
scene, its objects,and directional clues are essential for the agent to
interpret complex instructions and correctly perceive the environment. To
capture and utilize the relationships, we propose a novel Language and Visual
Entity Relationship Graph for modelling the inter-modal relationships between
text and vision, and the intra-modal relationships among visual entities. We
propose a message passing algorithm for propagating information between
language elements and visual entities in the graph, which we then combine to
determine the next action to take. Experiments show that by taking advantage of
the relationships we are able to improve over state-of-the-art. On the
Room-to-Room (R2R) benchmark, our method achieves the new best performance on
the test unseen split with success rate weighted by path length (SPL) of 52%.
On the Room-for-Room (R4R) dataset, our method significantly improves the
previous best from 13% to 34% on the success weighted by normalized dynamic
time warping (SDTW). Code is available at:
https://github.com/YicongHong/Entity-Graph-VLN.
- Abstract(参考訳): 視覚言語ナビゲーション(vln)は、エージェントが自然言語命令に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚の両方の観点から,エージェントが複雑な命令を解釈し,環境を正しく認識するためには,シーン,オブジェクト,方向手がかりの関係が不可欠であることがわかった。
そこで本研究では,テキストと視覚間のモーダル関係と,視覚的実体間のモーダル関係をモデル化するための,新しい言語と視覚的エンティティ関係グラフを提案する。
本稿では,言語要素とグラフ内の視覚的エンティティ間の情報を伝達するメッセージパッシングアルゴリズムを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
ルーム・ツー・ルーム (r2r) ベンチマークでは,パス長 (spl) 重み付けによる成功率 (spl) が52%と,テストにおける新たな最良性能を達成した。
ルーム・フォー・ルーム(r4r)データセットでは、正規化動的時間ゆがみ(sdtw)によって重みづけられた成功の13%から34%まで、従来のベストを大幅に改善した。
コードは、https://github.com/YicongHong/Entity-Graph-VLN.comで入手できる。
関連論文リスト
- SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation [11.76365012394685]
Panoptic Scene Graph Generation (PSG) は、オブジェクトをセグメント化し、オブジェクト間の関係を予測することで、包括的な画像理解を実現することを目的としている。
以前の手法は主に視覚情報に依存するか、オブジェクトや関係名などの限られた言語情報を利用する。
言語情報を用いて関係予測,特に稀な関係の予測を支援することを提案する。
論文 参考訳(メタデータ) (2023-11-27T17:05:25Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。