論文の概要: MUTATT: Visual-Textual Mutual Guidance for Referring Expression
Comprehension
- arxiv url: http://arxiv.org/abs/2003.08027v2
- Date: Fri, 20 Mar 2020 05:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 10:17:14.709999
- Title: MUTATT: Visual-Textual Mutual Guidance for Referring Expression
Comprehension
- Title(参考訳): MUTATT:表現理解の参照のための視覚的相互指導
- Authors: Shuai Wang, Fan Lyu, Wei Feng, and Song Wang
- Abstract要約: 参照式理解は、自然言語の参照式により、与えられた画像中のテキスト関連領域をローカライズすることを目的としている。
我々はRECにおいて参照表現と対象領域は意味論的に相関していると主張している。
視覚と言語間の相互指導を構築するために,MutAttと呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 16.66775734538439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression comprehension (REC) aims to localize a text-related
region in a given image by a referring expression in natural language. Existing
methods focus on how to build convincing visual and language representations
independently, which may significantly isolate visual and language information.
In this paper, we argue that for REC the referring expression and the target
region are semantically correlated and subject, location and relationship
consistency exist between vision and language.On top of this, we propose a
novel approach called MutAtt to construct mutual guidance between vision and
language, which treat vision and language equally thus yield compact
information matching. Specifically, for each module of subject, location and
relationship, MutAtt builds two kinds of attention-based mutual guidance
strategies. One strategy is to generate vision-guided language embedding for
the sake of matching relevant visual feature. The other reversely generates
language-guided visual feature to match relevant language embedding. This
mutual guidance strategy can effectively guarantees the vision-language
consistency in three modules. Experiments on three popular REC datasets
demonstrate that the proposed approach outperforms the current state-of-the-art
methods.
- Abstract(参考訳): Referring Expression comprehension (REC) は、自然言語の参照式によって与えられた画像内のテキスト関連領域をローカライズすることを目的としている。
既存の手法は、説得力のある視覚情報と言語表現を独立して構築する方法に重点を置いている。
本稿では,RECにおいて参照表現と対象領域が意味的に相関し,視覚と言語の間に位置と関係の整合性が存在することを論じ,その上で,視覚と言語間の相互指導を構築するためのMutAttという手法を提案する。
特に、主題、位置、関係の各モジュールに対して、MutAttは2種類の注意に基づく相互指導戦略を構築している。
1つの戦略は、関連する視覚特徴にマッチするため、視覚誘導言語埋め込みを生成することである。
もう1つは、関連言語埋め込みにマッチする言語誘導ビジュアル機能を生成する。
この相互誘導戦略は、3つのモジュールの視覚言語一貫性を効果的に保証することができる。
3つの一般的なRECデータセットの実験は、提案手法が現在の最先端手法よりも優れていることを示している。
関連論文リスト
- Context-Aware Integration of Language and Visual References for Natural Language Tracking [27.3884348078998]
自然言語仕様(TNL)による追跡は、初期フレームに言語的記述が与えられたビデオシーケンスにおいて、ターゲットを一貫してローカライズすることを目的としている。
本稿では,1)時間的視覚的テンプレートと言語表現の相補性を活用するためのプロンプトモジュールを併用したマルチモーダルトラッキングフレームワークを提案する。
この設計は、歴史的視覚情報と統合されたソリューションを活用することで時間的一貫性を確保し、単一のステップで予測を生成する。
論文 参考訳(メタデータ) (2024-03-29T04:58:33Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - RISAM: Referring Image Segmentation via Mutual-Aware Attention Features [13.64992652002458]
イメージセグメンテーション(RIS)は、言語表現プロンプトに基づいて特定の領域をセグメンテーションすることを目的としている。
既存の手法では、言語的特徴を視覚的特徴に取り入れ、マスク復号のためのマルチモーダル特徴を得る。
本稿では,SAM(Seegment Anything Model)を利用した参照画像分割手法MARISを提案する。
論文 参考訳(メタデータ) (2023-11-27T11:24:25Z) - VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search [51.9899504535878]
テキストに基づく人物検索のための視覚誘導セマンティック・グループ・ネットワーク(VGSG)を提案する。
VGSGでは、視覚関連テキストの特徴を抽出するために視覚誘導の注意が用いられる。
関係知識伝達の助けを借りて、VGKTは意味群テキスト特徴と対応する視覚特徴とを整合させることができる。
論文 参考訳(メタデータ) (2023-11-13T17:56:54Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Learning Point-Language Hierarchical Alignment for 3D Visual Grounding [35.17185775314988]
本稿では,多粒度視覚表現と言語表現をエンドツーエンドに学習する階層アライメントモデル(HAM)を提案する。
我々は,3次元コンテキストとインスタンスをモデル化するためのキーポイントと提案ポイントを抽出し,コンテキスト変調によるポイント言語アライメントを提案する。
グローバルな関係と局所的な関係を更に捉えるために,空間的に多重なモデリング手法を提案する。
論文 参考訳(メタデータ) (2022-10-22T18:02:10Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。