論文の概要: On the Efficacy of Co-Attention Transformer Layers in Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2201.03965v1
- Date: Tue, 11 Jan 2022 14:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 14:13:41.000285
- Title: On the Efficacy of Co-Attention Transformer Layers in Visual Question
Answering
- Title(参考訳): 視覚質問応答における共用変圧器層の有効性について
- Authors: Ankur Sikarwar and Gabriel Kreiman
- Abstract要約: 本研究では,ネットワークが質問に答えつつ,関連する領域に注目する上で,コアテンション・トランスフォーマー・レイヤの有効性について検討する。
我々は,これらのコアテンション層における疑問条件付きイメージアテンションスコアを用いて視覚アテンションマップを生成する。
我々の研究は、コ・アテンション・トランスフォーマー・レイヤの機能と解釈に光を当て、現在のネットワークのギャップを強調し、将来のVQAモデルの開発を導くことができる。
- 参考スコア(独自算出の注目度): 5.547800834335381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, multi-modal transformers have shown significant progress in
Vision-Language tasks, such as Visual Question Answering (VQA), outperforming
previous architectures by a considerable margin. This improvement in VQA is
often attributed to the rich interactions between vision and language streams.
In this work, we investigate the efficacy of co-attention transformer layers in
helping the network focus on relevant regions while answering the question. We
generate visual attention maps using the question-conditioned image attention
scores in these co-attention layers. We evaluate the effect of the following
critical components on visual attention of a state-of-the-art VQA model: (i)
number of object region proposals, (ii) question part of speech (POS) tags,
(iii) question semantics, (iv) number of co-attention layers, and (v) answer
accuracy. We compare the neural network attention maps against human attention
maps both qualitatively and quantitatively. Our findings indicate that
co-attention transformer modules are crucial in attending to relevant regions
of the image given a question. Importantly, we observe that the semantic
meaning of the question is not what drives visual attention, but specific
keywords in the question do. Our work sheds light on the function and
interpretation of co-attention transformer layers, highlights gaps in current
networks, and can guide the development of future VQA models and networks that
simultaneously process visual and language streams.
- Abstract(参考訳): 近年、マルチモーダルトランスフォーマーは視覚言語タスクにおいて、視覚質問応答(vqa)のような著しい進歩を示しており、以前のアーキテクチャをかなり上回っている。
このVQAの改善は、視覚と言語ストリーム間の豊富な相互作用に起因することが多い。
本研究では,ネットワークが質問に回答しながら関連領域に集中するのを助けるために,コアテンショントランスフォーマー層の有効性について検討する。
我々は,これらのコアテンション層における疑問条件付きイメージアテンションスコアを用いて視覚アテンションマップを生成する。
現状VQAモデルの視覚的注意に対する以下の臨界成分の影響を評価する。
(i)対象領域の提案数
(ii)音声(POS)タグの質問部分
(iii)質問の意味論
(iv)コアテンション層の数、及び
(v)正確性に答える。
ニューラルネットワークのアテンションマップと人間のアテンションマップを質的・定量的に比較した。
以上の結果から,画像の関連領域への応答にはコアテンショントランスフォーマーモジュールが重要であることが示唆された。
重要なことに、質問の意味は視覚的注意を惹きつけるものではなく、質問の特定のキーワードが行うものである。
我々の研究は、コアテンショントランスフォーマー層の機能と解釈に光を当て、現在のネットワークのギャップを強調し、視覚と言語ストリームを同時に処理する将来のVQAモデルとネットワークの開発をガイドすることができる。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images [1.6932802756478726]
Visual Question Answering for Remote Sensing (RSVQA)は、リモートセンシング画像の内容に関する自然言語の質問に答えることを目的としたタスクである。
セグメンテーションによって導かれるアテンションメカニズムをRSVQAパイプラインに埋め込むことを提案する。
16のセグメンテーションクラスと問合せ/問合せペアでアノテートされた非常に高解像度のRGB写真を利用する新しいVQAデータセットを提供する。
論文 参考訳(メタデータ) (2024-07-11T16:59:32Z) - Convolution-enhanced Evolving Attention Networks [41.684265133316096]
Evolving Attention-enhanced Dilated Convolutional (EA-DC-) Transformerは最先端のモデルを大幅に上回っている。
これは、アテンションマップのレイヤーワイド進化を明示的にモデル化する最初の作品である。
論文 参考訳(メタデータ) (2022-12-16T08:14:04Z) - Weakly Supervised Grounding for VQA in Vision-Language Transformers [112.5344267669495]
本稿では,トランスにおける視覚的質問応答の文脈における弱教師付きグラウンドリングの問題に焦点をあてる。
このアプローチでは、視覚エンコーダ内の各視覚トークンをグループ化することでカプセルを活用する。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-05T22:06:03Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - An experimental study of the vision-bottleneck in VQA [17.132865538874352]
視覚質問応答(VQA)における視覚ブロックの検討
画像から抽出した視覚オブジェクトの量と品質を実験する。
また,質問に答えるために必要な対象に関する情報を組み込むための2つの方法の影響についても検討した。
論文 参考訳(メタデータ) (2022-02-14T16:43:32Z) - VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual
Question Answering [15.017443876780286]
VQA-MHUG - 視覚的質問応答(VQA)における画像と質問の両方をマルチモーダルで見る新しいデータセット。
われわれのデータセットを用いて、5つの最先端VQAモデルから得られた人間と神経の注意戦略の類似性を分析する。
論文 参考訳(メタデータ) (2021-09-27T15:06:10Z) - Transformer Interpretability Beyond Attention Visualization [87.96102461221415]
自己保持技術、特にトランスフォーマーは、テキスト処理の分野を支配しています。
本研究では,トランスフォーマーネットワークの関連性を計算する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-17T18:56:33Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。