論文の概要: COIN: Counterfactual Image Generation for VQA Interpretation
- arxiv url: http://arxiv.org/abs/2201.03342v1
- Date: Mon, 10 Jan 2022 13:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:11:58.180383
- Title: COIN: Counterfactual Image Generation for VQA Interpretation
- Title(参考訳): COIN:VQA解釈のための対実画像生成
- Authors: Zeyd Boukhers, Timo Hartmann, Jan J\"urjens
- Abstract要約: 本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
- 参考スコア(独自算出の注目度): 5.994412766684842
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Due to the significant advancement of Natural Language Processing and
Computer Vision-based models, Visual Question Answering (VQA) systems are
becoming more intelligent and advanced. However, they are still error-prone
when dealing with relatively complex questions. Therefore, it is important to
understand the behaviour of the VQA models before adopting their results. In
this paper, we introduce an interpretability approach for VQA models by
generating counterfactual images. Specifically, the generated image is supposed
to have the minimal possible change to the original image and leads the VQA
model to give a different answer. In addition, our approach ensures that the
generated image is realistic. Since quantitative metrics cannot be employed to
evaluate the interpretability of the model, we carried out a user study to
assess different aspects of our approach. In addition to interpreting the
result of VQA models on single images, the obtained results and the discussion
provides an extensive explanation of VQA models' behaviour.
- Abstract(参考訳): 自然言語処理とコンピュータビジョンベースのモデルの大幅な進歩により、視覚質問応答(VQA)システムはよりインテリジェントで高度なものになりつつある。
しかし、比較的複雑な問題を扱う場合、エラーが発生しやすい。
したがって、VQAモデルの結果を採用する前に、VQAモデルの振る舞いを理解することが重要である。
本稿では,VQAモデルに対する対物画像の生成による解釈可能性アプローチを提案する。
具体的には、生成された画像は、元の画像に最小限の変更が期待でき、VQAモデルに異なる回答を与える。
さらに,本手法は,生成した画像がリアルであることを保証する。
モデルの解釈性を評価するために定量的指標は使用できないため,提案手法の異なる側面を評価するためにユーザ調査を行った。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
関連論文リスト
- Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - Towards a Unified Model for Generating Answers and Explanations in
Visual Question Answering [11.754328280233628]
我々は、QAモデルとは無関係なトレーニング説明モデルにより、説明の根拠が減り、性能が制限されると主張している。
本稿では,統一モデルに対するマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-25T19:29:19Z) - All You May Need for VQA are Image Captions [24.634567673906666]
ボリュームにおけるVQAの例を自動的に導出する手法を提案する。
得られたデータは高品質であることを示す。
データに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善する。
論文 参考訳(メタデータ) (2022-05-04T04:09:23Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。