論文の概要: Robust Explanations for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2001.08730v1
- Date: Thu, 23 Jan 2020 18:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 09:54:12.472848
- Title: Robust Explanations for Visual Question Answering
- Title(参考訳): 視覚的質問応答のためのロバストな説明
- Authors: Badri N. Patro, Shivansh Pate, and Vinay P. Namboodiri
- Abstract要約: 本稿では,視覚的質問応答(VQA)の頑健な説明を得る手法を提案する。
本モデルは,視覚的およびテキスト的説明を提供することにより,VQAモデルを用いて得られた回答を説明する。
本稿では,視覚的およびテキスト的説明を用いた雑音による摂動攻撃に対するモデルの堅牢性を示す。
- 参考スコア(独自算出の注目度): 24.685231217726194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a method to obtain robust explanations for visual
question answering(VQA) that correlate well with the answers. Our model
explains the answers obtained through a VQA model by providing visual and
textual explanations. The main challenges that we address are i) Answers and
textual explanations obtained by current methods are not well correlated and
ii) Current methods for visual explanation do not focus on the right location
for explaining the answer. We address both these challenges by using a
collaborative correlated module which ensures that even if we do not train for
noise based attacks, the enhanced correlation ensures that the right
explanation and answer can be generated. We further show that this also aids in
improving the generated visual and textual explanations. The use of the
correlated module can be thought of as a robust method to verify if the answer
and explanations are coherent. We evaluate this model using VQA-X dataset. We
observe that the proposed method yields better textual and visual justification
that supports the decision. We showcase the robustness of the model against a
noise-based perturbation attack using corresponding visual and textual
explanations. A detailed empirical analysis is shown. Here we provide source
code link for our model \url{https://github.com/DelTA-Lab-IITK/CCM-WACV}.
- Abstract(参考訳): 本稿では,視覚的質問応答(VQA)の頑健な説明を得る手法を提案する。
本モデルは,視覚的およびテキスト的説明を提供することにより,VQAモデルを用いて得られた回答を説明する。
私たちが直面する主な課題は
一 現行の方法による答弁及び説明書の相関関係がよくないこと。
二 視覚的説明の現在の方法は、その答えを説明するための適切な場所に焦点を当てない。
ノイズベース攻撃のトレーニングを行わなくても,適切な説明と回答が生成されることを保証する,協調相関モジュールを使用することで,これら2つの課題に対処する。
さらに,生成した視覚説明やテキスト説明の改善にも寄与することを示す。
相関モジュールの使用は、答えと説明が一貫性があるかどうかを検証するためのロバストな方法と考えることができる。
VQA-Xデータセットを用いてこのモデルを評価する。
提案手法は,意思決定を支援する文章的,視覚的な正当性が向上する。
視覚的およびテキスト的説明を用いた雑音による摂動攻撃に対するモデルの有効性を示す。
詳細な実験分析が示されている。
ここでは、我々のモデルである \url{https://github.com/DelTA-Lab-IITK/CCM-WACV} のソースコードリンクを提供する。
関連論文リスト
- Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - Intrinsic Subgraph Generation for Interpretable Graph based Visual Question Answering [27.193336817953142]
グラフに基づく視覚質問応答(VQA)に対する解釈可能なアプローチを提案する。
本モデルは,問合せ処理中に本質的にサブグラフを生成するように設計されている。
生成した部分グラフを,グラフニューラルネットワークの確立したポストホックな説明可能性法と比較し,人的評価を行う。
論文 参考訳(メタデータ) (2024-03-26T12:29:18Z) - Towards More Faithful Natural Language Explanation Using Multi-Level
Contrastive Learning in VQA [7.141288053123662]
視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために,自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。
既存のポストホックな説明は、人間の論理的推論と常に一致している訳ではなく、1) 誘惑的不満足な説明は、生成した説明が論理的に答えに繋がらないこと、2) 現実的不整合性、2) 画像上の事実を考慮せずに解答の反事実的説明を偽示すること、3) 意味的摂動の過敏性、モデルは、小さな摂動によって引き起こされる意味的変化を認識できないこと、である。
論文 参考訳(メタデータ) (2023-12-21T05:51:55Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z) - On the General Value of Evidence, and Bilingual Scene-Text Visual
Question Answering [120.64104995052189]
本稿では,2つの言語で表現された質問を含む,この問題に対処するための一歩を踏み出したデータセットを提案する。
推論を測定することは、偶然に正しい答えを罰することによって、直接一般化を促進する。
データセットはVQA問題のシーンテキストバージョンを反映しており、推論評価は参照表現課題のテキストベースのバージョンと見なすことができる。
論文 参考訳(メタデータ) (2020-02-24T13:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。