論文の概要: VQA with Cascade of Self- and Co-Attention Blocks
- arxiv url: http://arxiv.org/abs/2302.14777v1
- Date: Tue, 28 Feb 2023 17:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:11:52.911792
- Title: VQA with Cascade of Self- and Co-Attention Blocks
- Title(参考訳): 自己および共注意ブロックのカスケード付きVQA
- Authors: Aakansha Mishra, Ashish Anand, Prithwijit Guha
- Abstract要約: 本研究の目的は、視覚的・テキスト的モダリティの密接な相互作用を通じて、改良されたマルチモーダル表現を学習することである。
提案モデルは,画像とテキストに自己注意と共同注意の両方を含む注意ブロックを有する。
- 参考スコア(独自算出の注目度): 3.0013352260516744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of complex attention modules has improved the performance of the
Visual Question Answering (VQA) task. This work aims to learn an improved
multi-modal representation through dense interaction of visual and textual
modalities. The proposed model has an attention block containing both
self-attention and co-attention on image and text. The self-attention modules
provide the contextual information of objects (for an image) and words (for a
question) that are crucial for inferring an answer. On the other hand,
co-attention aids the interaction of image and text. Further, fine-grained
information is obtained from two modalities by using a Cascade of Self- and
Co-Attention blocks (CSCA). This proposal is benchmarked on the widely used
VQA2.0 and TDIUC datasets. The efficacy of key components of the model and
cascading of attention modules are demonstrated by experiments involving
ablation analysis.
- Abstract(参考訳): 複雑な注意モジュールの使用により、Visual Question Answering (VQA)タスクのパフォーマンスが改善された。
本研究は,視覚とテキストの密接な相互作用を通じて,マルチモーダル表現の改善を目標としている。
提案モデルは,画像とテキストに自己注意と共同注意の両方を含む注意ブロックを有する。
セルフアテンションモジュールは、答えを推測するのに重要なオブジェクト(画像用)と単語(質問用)のコンテキスト情報を提供する。
一方、コ・アテンションは画像とテキストの相互作用を支援する。
さらに、CSCA(Self- and Co-Attention Block)のカスケードを用いて、2つのモードからきめ細かい情報を得る。
この提案は広く使われているVQA2.0とTDIUCデータセットでベンチマークされている。
アブレーション解析を含む実験により, モデルの主要成分の有効性と注目モジュールのカスケードを実証した。
関連論文リスト
- Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities [18.859309032300402]
画像とテキストのモダリティからの情報の統合が視覚言語モデル(VLM)予測の性能と振舞いに与える影響について検討する。
本稿では,VQAタスクの解決に視覚的内容が不可欠である様々な構成において,テキストと画像のモダリティの相互作用について検討する。
この結果から,モダリティ間の相補的な情報によって解答や推論の質が向上し,矛盾する情報がモデルの性能や信頼性を損なうことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T16:02:02Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Object Attribute Matters in Visual Question Answering [15.705504296316576]
本稿では,オブジェクト属性の活用の観点から,新しいVQAアプローチを提案する。
属性融合モジュールはマルチモーダルグラフニューラルネットワークを構築し、メッセージパッシングを通じて属性と視覚的特徴を融合する。
オブジェクトレベルの視覚言語アライメントの改善により、マルチモーダルシーンの理解が容易になり、モデルの堅牢性が改善される。
論文 参考訳(メタデータ) (2023-12-20T12:46:30Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - An experimental study of the vision-bottleneck in VQA [17.132865538874352]
視覚質問応答(VQA)における視覚ブロックの検討
画像から抽出した視覚オブジェクトの量と品質を実験する。
また,質問に答えるために必要な対象に関する情報を組み込むための2つの方法の影響についても検討した。
論文 参考訳(メタデータ) (2022-02-14T16:43:32Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - An Improved Attention for Visual Question Answering [46.89101543660587]
VQA(Visual Question Answering)の問題点について考察する。
自然言語で表現された画像と自由形式の自由な質問が与えられた場合、VQAシステムの目的は、画像に関してこの質問に対する正確な回答を提供することである。
モダクティブ内およびモダクティブ間の依存関係をキャプチャするアテンションは、これらの課題に対処するための最も広く使用されるメカニズムとして現れている。
論文 参考訳(メタデータ) (2020-11-04T07:34:54Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。