論文の概要: Guiding Visual Question Answering with Attention Priors
- arxiv url: http://arxiv.org/abs/2205.12616v1
- Date: Wed, 25 May 2022 09:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 04:12:31.634249
- Title: Guiding Visual Question Answering with Attention Priors
- Title(参考訳): 注意優先事項による視覚的質問応答の指導
- Authors: Thao Minh Le, Vuong Le, Sunil Gupta, Svetha Venkatesh, Truyen Tran
- Abstract要約: 本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
- 参考スコア(独自算出の注目度): 76.21671164766073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current success of modern visual reasoning systems is arguably attributed
to cross-modality attention mechanisms. However, in deliberative reasoning such
as in VQA, attention is unconstrained at each step, and thus may serve as a
statistical pooling mechanism rather than a semantic operation intended to
select information relevant to inference. This is because at training time,
attention is only guided by a very sparse signal (i.e. the answer label) at the
end of the inference chain. This causes the cross-modality attention weights to
deviate from the desired visual-language bindings. To rectify this deviation,
we propose to guide the attention mechanism using explicit linguistic-visual
grounding. This grounding is derived by connecting structured linguistic
concepts in the query to their referents among the visual objects. Here we
learn the grounding from the pairing of questions and images alone, without the
need for answer annotation or external grounding supervision. This grounding
guides the attention mechanism inside VQA models through a duality of
mechanisms: pre-training attention weight calculation and directly guiding the
weights at inference time on a case-by-case basis. The resultant algorithm is
capable of probing attention-based reasoning models, injecting relevant
associative knowledge, and regulating the core reasoning process. This scalable
enhancement improves the performance of VQA models, fortifies their robustness
to limited access to supervised data, and increases interpretability.
- Abstract(参考訳): 現代の視覚推論システムの成功は、おそらくクロスモダリティの注意機構によるものである。
しかしながら、VQAのような熟考的推論では、各ステップで注意は拘束されず、推論に関連する情報を選択することを目的としたセマンティック操作よりも統計プール機構として機能する。
これは、トレーニング時、注意は推論チェーンの最後にある非常にスパースな信号(すなわち、回答ラベル)によってのみ誘導されるためである。
これにより、モダリティ間の注意重みは、所望の視覚言語結合から逸脱する。
このずれを正すために,言語・視覚的接地による注意機構の導出を提案する。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
ここでは、回答アノテーションや外部接地監督を必要とせずに、質問と画像のペアリングからグラウンドグラウンドを学習する。
このグラウンドリングは、VQAモデル内の注意機構を、事前学習された注意重み計算と、ケースバイケースに基づく推論時間での重みの直接誘導というメカニズムの双対性を通じて導く。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
この拡張により、VQAモデルの性能が向上し、教師付きデータへのアクセスが制限され、解釈可能性も向上する。
関連論文リスト
- Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Revisiting Attention Weights as Explanations from an Information
Theoretic Perspective [4.499369811647602]
注意機構は、他のモデル要素と慎重に組み合わせた場合、説明をモデル化するためのショートカットとして機能する可能性があることを示す。
本研究により,注意機構は,他のモデル要素と慎重に組み合わせた場合,モデル説明のためのショートカットとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-31T12:53:20Z) - Attention in Reasoning: Dataset, Analysis, and Modeling [31.3104693230952]
本稿では,タスクの成果につながるプロセスを理解し,改善するために注意を向けたAttention with Reasoning(AiR)フレームワークを提案する。
まず,原子推論操作のシーケンスに基づいて評価基準を定義し,注意度を定量的に測定する。
次に、人間の視線追跡と正当性データを収集し、その推論能力に基づいて、様々な機械および人間の注意機構を解析する。
論文 参考訳(メタデータ) (2022-04-20T20:32:31Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Why Attentions May Not Be Interpretable? [46.69116768203185]
近年の研究では、注目・重要解釈は期待どおりに機能しないことが多いことが判明した。
この現象の根本原因の一つがショートカットであり、注意重み自体が余分な情報を運ぶ可能性があることを示している。
この問題を緩和する2つの方法を提案する。
論文 参考訳(メタデータ) (2020-06-10T05:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。