論文の概要: VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2109.13116v1
- Date: Mon, 27 Sep 2021 15:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:57:27.226270
- Title: VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual
Question Answering
- Title(参考訳): VQA-MHUG:視覚質問応答におけるマルチモーダル・ニューラル・アテンションの研究
- Authors: Ekta Sood, Fabian K\"ogel, Florian Strohm, Prajit Dhar, Andreas
Bulling
- Abstract要約: VQA-MHUG - 視覚的質問応答(VQA)における画像と質問の両方をマルチモーダルで見る新しいデータセット。
われわれのデータセットを用いて、5つの最先端VQAモデルから得られた人間と神経の注意戦略の類似性を分析する。
- 参考スコア(独自算出の注目度): 15.017443876780286
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present VQA-MHUG - a novel 49-participant dataset of multimodal human gaze
on both images and questions during visual question answering (VQA) collected
using a high-speed eye tracker. We use our dataset to analyze the similarity
between human and neural attentive strategies learned by five state-of-the-art
VQA models: Modular Co-Attention Network (MCAN) with either grid or region
features, Pythia, Bilinear Attention Network (BAN), and the Multimodal
Factorized Bilinear Pooling Network (MFB). While prior work has focused on
studying the image modality, our analyses show - for the first time - that for
all models, higher correlation with human attention on text is a significant
predictor of VQA performance. This finding points at a potential for improving
VQA performance and, at the same time, calls for further research on neural
text attention mechanisms and their integration into architectures for vision
and language tasks, including but potentially also beyond VQA.
- Abstract(参考訳): VQA-MHUG - 高速アイトラッカーを用いて収集した視覚的質問応答(VQA)において、画像と質問の両方を多人数で見る新しい49の参加者データセット。
我々は,5つの最先端VQAモデルから得られた人間と神経の注意戦略の類似性を分析するために,グリッドまたは地域特徴を持つモジュールコアテンション・ネットワーク(MCAN),Pythia,Bilinear Attention Network(BAN),MFB(Multimodal Factorized Bilinear Pooling Network)の3つを用いた。
これまでの研究は画像モダリティの研究に重点を置いてきたが、すべてのモデルにおいて、テキストに対する人間の注意と高い相関がvqaパフォーマンスの重要な予測要因であることを初めて分析した。
この発見は、VQAのパフォーマンスを改善する可能性を示し、同時に、ニューラルネットワークの注意機構と、視覚や言語タスクのためのアーキテクチャへの統合に関するさらなる研究を求めている。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Multimodal Integration of Human-Like Attention in Visual Question
Answering [13.85096308757021]
MULAN(Multimodal Human-like Attention Network)について述べる。
MULANは、VQAモデルのトレーニング中に、画像やテキストに対する人間のような注意をマルチモーダルに統合する最初の方法である。
MULANは、テストスタッドでは73.98%、テストデブでは73.72%の精度で新しい最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:56:54Z) - A survey on VQA_Datasets and Approaches [0.0]
視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
論文 参考訳(メタデータ) (2021-05-02T08:50:30Z) - Probabilistic Graph Attention Network with Conditional Kernels for
Pixel-Wise Prediction [158.88345945211185]
本稿では,画素レベルの予測を基本的側面,すなわち,技術の現状を推し進める新たなアプローチを提案する。
構造化されたマルチスケール機能学習と融合。
本論文では,マルチスケール表現を原理的に学習・融合するための新しいアテンテンションゲート条件ランダムフィールド(AG-CRFs)モデルに基づく確率的グラフアテンションネットワーク構造を提案する。
論文 参考訳(メタデータ) (2021-01-08T04:14:29Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。