論文の概要: Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering
- arxiv url: http://arxiv.org/abs/2305.14882v2
- Date: Sat, 13 Apr 2024 17:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 00:17:02.252639
- Title: Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering
- Title(参考訳): 動的クローズボトルネック : 視覚的質問応答の解釈に向けて
- Authors: Xingyu Fu, Ben Zhou, Sihao Chen, Mark Yatskar, Dan Roth,
- Abstract要約: 本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
- 参考スコア(独自算出の注目度): 58.64831511644917
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in multimodal large language models (LLMs) have shown extreme effectiveness in visual question answering (VQA). However, the design nature of these end-to-end models prevents them from being interpretable to humans, undermining trust and applicability in critical domains. While post-hoc rationales offer certain insight into understanding model behavior, these explanations are not guaranteed to be faithful to the model. In this paper, we address these shortcomings by introducing an interpretable by design model that factors model decisions into intermediate human-legible explanations, and allows people to easily understand why a model fails or succeeds. We propose the Dynamic Clue Bottleneck Model ( (DCLUB), a method that is designed towards an inherently interpretable VQA system. DCLUB provides an explainable intermediate space before the VQA decision and is faithful from the beginning, while maintaining comparable performance to black-box systems. Given a question, DCLUB first returns a set of visual clues: natural language statements of visually salient evidence from the image, and then generates the output based solely on the visual clues. To supervise and evaluate the generation of VQA explanations within DCLUB, we collect a dataset of 1.7k reasoning-focused questions with visual clues. Evaluations show that our inherently interpretable system can improve 4.64% over a comparable black-box system in reasoning-focused questions while preserving 99.43% of performance on VQA-v2.
- Abstract(参考訳): マルチモーダル大言語モデル(LLM)の最近の進歩は、視覚的質問応答(VQA)において極めて有効であることを示している。
しかしながら、これらのエンド・ツー・エンド・モデルの設計特性は、人間に解釈されることを防ぎ、重要な領域における信頼と適用性を損なう。
ポストホックな合理性はモデル行動の理解に一定の洞察を与えるが、これらの説明はモデルに忠実であることを保証するものではない。
本稿では,モデル決定を中間的人文的説明に分解する設計モデルを導入し,モデルが失敗したり,成功したりする理由を容易に理解できるようにすることによって,これらの欠点に対処する。
本稿では,自然に解釈可能なVQAシステムを対象とした動的クローズ・ボトルネック・モデル (DCLUB) を提案する。
DCLUBは、VQA決定の前に説明可能な中間空間を提供し、ブラックボックスシステムに匹敵する性能を維持しながら、最初から忠実である。
DCLUBはまず、画像から視覚的に有意な証拠を自然言語で表現し、視覚的手がかりのみに基づいて出力を生成するという、視覚的手がかりのセットを返します。
我々は,DCLUB内のVQA説明の生成を監督し,評価するために,視覚的手がかりを用いた1.7kの推論型質問のデータセットを収集した。
VQA-v2では99.43%の性能を保ちながら、推論に焦点をあてた質問において、我々の本質的に解釈可能なシステムは同等のブラックボックスシステムよりも4.64%改善できることを示す。
関連論文リスト
- Towards More Faithful Natural Language Explanation Using Multi-Level
Contrastive Learning in VQA [7.141288053123662]
視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために,自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。
既存のポストホックな説明は、人間の論理的推論と常に一致している訳ではなく、1) 誘惑的不満足な説明は、生成した説明が論理的に答えに繋がらないこと、2) 現実的不整合性、2) 画像上の事実を考慮せずに解答の反事実的説明を偽示すること、3) 意味的摂動の過敏性、モデルは、小さな摂動によって引き起こされる意味的変化を認識できないこと、である。
論文 参考訳(メタデータ) (2023-12-21T05:51:55Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Robust Explanations for Visual Question Answering [24.685231217726194]
本稿では,視覚的質問応答(VQA)の頑健な説明を得る手法を提案する。
本モデルは,視覚的およびテキスト的説明を提供することにより,VQAモデルを用いて得られた回答を説明する。
本稿では,視覚的およびテキスト的説明を用いた雑音による摂動攻撃に対するモデルの堅牢性を示す。
論文 参考訳(メタデータ) (2020-01-23T18:43:34Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。