論文の概要: Shifting More Attention to Visual Backbone: Query-modulated Refinement
Networks for End-to-End Visual Grounding
- arxiv url: http://arxiv.org/abs/2203.15442v1
- Date: Tue, 29 Mar 2022 11:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:33:02.173829
- Title: Shifting More Attention to Visual Backbone: Query-modulated Refinement
Networks for End-to-End Visual Grounding
- Title(参考訳): Visual Backboneにもっと注意を移す: エンドツーエンドのビジュアルグラウンドのためのクエリ修飾リファインメントネットワーク
- Authors: Jiabo Ye, Junfeng Tian, Ming Yan, Xiaoshan Yang, Xuwu Wang, Ji Zhang,
Liang He, Xin Lin
- Abstract要約: 既存の方法は、事前訓練されたクエリに依存しない視覚的バックボーンを使用して、視覚的特徴マップを独立して抽出する。
視覚的バックボーンから抽出される視覚的特徴とマルチモーダル推論に必要な特徴は矛盾する。
不整合問題に対処するクエリ変調リファインメントネットワーク(QRNet)を提案する。
- 参考スコア(独自算出の注目度): 35.44496191453257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding focuses on establishing fine-grained alignment between
vision and natural language, which has essential applications in multimodal
reasoning systems. Existing methods use pre-trained query-agnostic visual
backbones to extract visual feature maps independently without considering the
query information. We argue that the visual features extracted from the visual
backbones and the features really needed for multimodal reasoning are
inconsistent. One reason is that there are differences between pre-training
tasks and visual grounding. Moreover, since the backbones are query-agnostic,
it is difficult to completely avoid the inconsistency issue by training the
visual backbone end-to-end in the visual grounding framework. In this paper, we
propose a Query-modulated Refinement Network (QRNet) to address the
inconsistent issue by adjusting intermediate features in the visual backbone
with a novel Query-aware Dynamic Attention (QD-ATT) mechanism and query-aware
multiscale fusion. The QD-ATT can dynamically compute query-dependent visual
attention at the spatial and channel levels of the feature maps produced by the
visual backbone. We apply the QRNet to an end-to-end visual grounding
framework. Extensive experiments show that the proposed method outperforms
state-of-the-art methods on five widely used datasets.
- Abstract(参考訳): 視覚グランドニングは、マルチモーダル推論システムにおいて必須の応用がある視覚と自然言語の間の細かなアライメントを確立することに焦点を当てている。
既存の方法は、事前訓練されたクエリに依存しないビジュアルバックボーンを使用して、クエリ情報を考慮せずに視覚特徴マップを独立に抽出する。
視覚的バックボーンから抽出した視覚的特徴と,マルチモーダル推論に必要な特徴は相容れないと論じる。
その理由の1つは、事前学習タスクと視覚的接地の違いである。
さらに、バックボーンはクエリに依存しないため、visual grounding frameworkでvisual backboneのエンドツーエンドをトレーニングすることで、一貫性の問題を完全に回避することは困難である。
本稿では,新しいクエリ・アウェア・ダイナミック・アテンション(QD-ATT)機構とクエリ・アウェア・マルチスケール・フュージョンを用いて,視覚バックボーンの中間機能を調整することで,一貫性のない問題に対処するクエリ変調リファインメント・ネットワーク(QRNet)を提案する。
QD-ATTは、視覚バックボーンによって生成された特徴マップの空間的およびチャネルレベルで、クエリ依存の視覚的注意を動的に計算することができる。
QRNetをエンドツーエンドのビジュアルグラウンドフレームワークに適用する。
広範な実験により,提案手法が5つの広範に使用されるデータセットにおいて最先端の手法よりも優れていることが示された。
関連論文リスト
- Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Bear the Query in Mind: Visual Grounding with Query-conditioned
Convolution [26.523051615516742]
本稿では,クエリ情報を畳み込みカーネルの生成に組み込むことで,クエリ対応の視覚的特徴を抽出するクエリ条件付き畳み込みモジュール(QCM)を提案する。
提案手法は,3つの一般的な視覚的グラウンドデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-06-18T04:26:39Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。