論文の概要: An Improved Attention for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2011.02164v3
- Date: Thu, 3 Jun 2021 19:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-29 21:21:06.906844
- Title: An Improved Attention for Visual Question Answering
- Title(参考訳): 視覚的質問応答に対する注意の改善
- Authors: Tanzila Rahman, Shih-Han Chou, Leonid Sigal and Giuseppe Carenini
- Abstract要約: VQA(Visual Question Answering)の問題点について考察する。
自然言語で表現された画像と自由形式の自由な質問が与えられた場合、VQAシステムの目的は、画像に関してこの質問に対する正確な回答を提供することである。
モダクティブ内およびモダクティブ間の依存関係をキャプチャするアテンションは、これらの課題に対処するための最も広く使用されるメカニズムとして現れている。
- 参考スコア(独自算出の注目度): 46.89101543660587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of Visual Question Answering (VQA). Given an image
and a free-form, open-ended, question, expressed in natural language, the goal
of VQA system is to provide accurate answer to this question with respect to
the image. The task is challenging because it requires simultaneous and
intricate understanding of both visual and textual information. Attention,
which captures intra- and inter-modal dependencies, has emerged as perhaps the
most widely used mechanism for addressing these challenges. In this paper, we
propose an improved attention-based architecture to solve VQA. We incorporate
an Attention on Attention (AoA) module within encoder-decoder framework, which
is able to determine the relation between attention results and queries.
Attention module generates weighted average for each query. On the other hand,
AoA module first generates an information vector and an attention gate using
attention results and current context; and then adds another attention to
generate final attended information by multiplying the two. We also propose
multimodal fusion module to combine both visual and textual information. The
goal of this fusion module is to dynamically decide how much information should
be considered from each modality. Extensive experiments on VQA-v2 benchmark
dataset show that our method achieves the state-of-the-art performance.
- Abstract(参考訳): 視覚質問応答(VQA)の問題点を考察する。
自然言語で表現された画像と自由形式の自由な質問が与えられた場合、VQAシステムの目的は、画像に関してこの質問に対する正確な回答を提供することである。
このタスクは、視覚情報とテキスト情報の同時的かつ複雑な理解を必要とするため、難しい。
モダクティブ内およびモダクティブ間の依存関係をキャプチャするアテンションは、これらの課題に対処するための最も広く使用されるメカニズムとして現れている。
本稿では,VQAを解くための注目型アーキテクチャを提案する。
我々は,エンコーダ・デコーダ・フレームワークに注意を向けるアテンション・オン・アテンション(aoa)モジュールを組み込んで,アテンション結果とクエリの関係を判定する。
attentionモジュールはクエリ毎に重み付け平均を生成する。
一方、AoAモジュールは、まず、注目結果と現在の状況を用いて、情報ベクトルと注目ゲートを生成し、次に2つを乗じて、最終的な出席情報を生成する。
また,視覚情報とテキスト情報を組み合わせたマルチモーダル融合モジュールを提案する。
この融合モジュールの目的は、各モダリティからどれだけの情報を考えるべきかを動的に決定することである。
VQA-v2ベンチマークデータセットの大規模な実験により,本手法が最先端の性能を実現することを示す。
関連論文リスト
- Object Attribute Matters in Visual Question Answering [15.705504296316576]
本稿では,オブジェクト属性の活用の観点から,新しいVQAアプローチを提案する。
属性融合モジュールはマルチモーダルグラフニューラルネットワークを構築し、メッセージパッシングを通じて属性と視覚的特徴を融合する。
オブジェクトレベルの視覚言語アライメントの改善により、マルチモーダルシーンの理解が容易になり、モデルの堅牢性が改善される。
論文 参考訳(メタデータ) (2023-12-20T12:46:30Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - VQA with Cascade of Self- and Co-Attention Blocks [3.0013352260516744]
本研究の目的は、視覚的・テキスト的モダリティの密接な相互作用を通じて、改良されたマルチモーダル表現を学習することである。
提案モデルは,画像とテキストに自己注意と共同注意の両方を含む注意ブロックを有する。
論文 参考訳(メタデータ) (2023-02-28T17:20:40Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。