論文の概要: Answer Questions with Right Image Regions: A Visual Attention
Regularization Approach
- arxiv url: http://arxiv.org/abs/2102.01916v1
- Date: Wed, 3 Feb 2021 07:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:28:28.419332
- Title: Answer Questions with Right Image Regions: A Visual Attention
Regularization Approach
- Title(参考訳): 正しい画像領域で質問に答える:視覚的注意の正規化アプローチ
- Authors: Yibing Liu, Yangyang Guo, Jianhua Yin, Xuemeng Song, Weifeng Liu,
Liqiang Nie
- Abstract要約: 本稿では,視覚質問応答(VQA)における視覚的グラウンドニングを改善するために,新しい視覚的注意規則化手法であるAttRegを提案する。
AttRegは、バックボーンモデルによって予期せず無視される質問応答に不可欠なイメージ領域を特定する。
VQA-CP v2ベンチマークデータセットの絶対的なパフォーマンス向上は6.93%である。
- 参考スコア(独自算出の注目度): 46.55924742590242
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual attention in Visual Question Answering (VQA) targets at locating the
right image regions regarding the answer prediction. However, recent studies
have pointed out that the highlighted image regions from the visual attention
are often irrelevant to the given question and answer, leading to model
confusion for correct visual reasoning. To tackle this problem, existing
methods mostly resort to aligning the visual attention weights with human
attentions. Nevertheless, gathering such human data is laborious and expensive,
making it burdensome to adapt well-developed models across datasets. To address
this issue, in this paper, we devise a novel visual attention regularization
approach, namely AttReg, for better visual grounding in VQA. Specifically,
AttReg firstly identifies the image regions which are essential for question
answering yet unexpectedly ignored (i.e., assigned with low attention weights)
by the backbone model. And then a mask-guided learning scheme is leveraged to
regularize the visual attention to focus more on these ignored key regions. The
proposed method is very flexible and model-agnostic, which can be integrated
into most visual attention-based VQA models and require no human attention
supervision. Extensive experiments over three benchmark datasets, i.e., VQA-CP
v2, VQA-CP v1, and VQA v2, have been conducted to evaluate the effectiveness of
AttReg. As a by-product, when incorporating AttReg into the strong baseline
LMH, our approach can achieve a new state-of-the-art accuracy of 59.92% with an
absolute performance gain of 6.93% on the VQA-CP v2 benchmark dataset. In
addition to the effectiveness validation, we recognize that the faithfulness of
the visual attention in VQA has not been well explored in literature. In the
light of this, we propose to empirically validate such property of visual
attention and compare it with the prevalent gradient-based approaches.
- Abstract(参考訳): VQA(Visual Question Answering)の視覚的注意は、回答予測に関する適切な画像領域の特定を目標とする。
しかし、近年の研究では、視覚的注意からの強調画像領域は、しばしば与えられた質問や回答とは無関係であり、正しい視覚的推論のためのモデル混乱をもたらすことが指摘されている。
この問題に対処するため、既存の手法は主に視覚的注意重みと人間の注意を一致させることに頼っている。
それでも、このような人的データの収集は手間とコストがかかり、データセットにまたがって十分に開発されたモデルを適用するのに負担がかかる。
そこで本論文では,VQAの視覚的基礎化を改善するために,新しい視覚的注意規則化手法であるAttRegを考案した。
特に、AttRegは、まず、バックボーンモデルによって、疑問応答に不可欠な画像領域を予期せず無視する(すなわち、低い注意重みが割り当てられる)。
そして、マスク誘導学習方式を利用して視覚的注意を規則化し、これらの無視された鍵領域に集中する。
提案手法は非常に柔軟でモデル非依存であり,視覚注意に基づくvqaモデルと統合でき,人間の注意の監視を必要としない。
VQA-CP v2、VQA-CP v1、VQA v2の3つのベンチマークデータセットに関する広範な実験が行われ、AttRegの有効性が評価された。
副産物として、強力なベースラインLMHにAttRegを組み込むことで、VQA-CP v2ベンチマークデータセットで6.93%の絶対的なパフォーマンス向上と59.92%の新しい最先端精度を実現することができる。
有効性検証に加えて,VQAにおける視覚的注意の忠実さが文献でよく研究されていないことも認識している。
そこで本研究では,視覚的注意の性質を実証的に検証し,一般的な勾配に基づくアプローチと比較する。
関連論文リスト
- From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual
Question Answering [15.017443876780286]
VQA-MHUG - 視覚的質問応答(VQA)における画像と質問の両方をマルチモーダルで見る新しいデータセット。
われわれのデータセットを用いて、5つの最先端VQAモデルから得られた人間と神経の注意戦略の類似性を分析する。
論文 参考訳(メタデータ) (2021-09-27T15:06:10Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Regularizing Attention Networks for Anomaly Detection in Visual Question
Answering [10.971443035470488]
最先端VQAモデルのロバスト性を5つの異なる異常に評価する。
入力画像と質問間の推論の信頼度を利用した注意に基づく手法を提案する。
注意ネットワークの最大エントロピー正規化は、注意に基づく異常検出を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-09-21T17:47:49Z) - Visual Grounding Methods for VQA are Working for the Wrong Reasons! [24.84797949716142]
性能改善は、視覚的接地の改善の結果ではなく、正規化効果であることを示す。
本稿では,外部アノテーションを一切必要とせず,VQA-CPv2上での最先端性能を実現する簡易な正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-12T21:45:23Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。