論文の概要: Interpretable by Design Visual Question Answering
- arxiv url: http://arxiv.org/abs/2305.14882v1
- Date: Wed, 24 May 2023 08:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:14:22.616898
- Title: Interpretable by Design Visual Question Answering
- Title(参考訳): 視覚的質問応答による解釈
- Authors: Xingyu Fu, Ben Zhou, Sihao Chen, Mark Yatskar, Dan Roth
- Abstract要約: 解釈可能なVQAモデルは、画像のどの部分から得られる結論を判断できるべきだ、と我々は主張する。
ここでは、VQA問題に対する明示的な中間的動的推論構造を設計する。
InterVQAは、最先端(ソータ)のエンドタスクのパフォーマンスと同様に、高品質な明示的な中間推論ステップを生成する。
- 参考スコア(独自算出の注目度): 64.66788198885182
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Model interpretability has long been a hard problem for the AI community
especially in the multimodal setting, where vision and language need to be
aligned and reasoned at the same time. In this paper, we specifically focus on
the problem of Visual Question Answering (VQA). While previous researches try
to probe into the network structures of black-box multimodal models, we propose
to tackle the problem from a different angle -- to treat interpretability as an
explicit additional goal.
Given an image and question, we argue that an interpretable VQA model should
be able to tell what conclusions it can get from which part of the image, and
show how each statement help to arrive at an answer. We introduce InterVQA:
Interpretable-by-design VQA, where we design an explicit intermediate dynamic
reasoning structure for VQA problems and enforce symbolic reasoning that only
use the structure for final answer prediction to take place. InterVQA produces
high-quality explicit intermediate reasoning steps, while maintaining similar
to the state-of-the-art (sota) end-task performance.
- Abstract(参考訳): モデル解釈可能性(Model Interpretability)は、特に視覚と言語を同時に調整し、推論する必要があるマルチモーダル環境で、AIコミュニティにとって長年、難しい問題だった。
本稿では,視覚質問応答(VQA)の問題に着目する。
従来の研究はブラックボックスマルチモーダルモデルのネットワーク構造を探索しようとしていたが、我々は解釈可能性を明確な追加目標として扱うために、異なる角度からこの問題に取り組むことを提案した。
画像と疑問が与えられた場合、解釈可能なVQAモデルは、その画像のどの部分から得られる結論を判断し、各ステートメントがどのように回答にたどり着くかを示すことができるべきである。
ここでは、VQA問題に対する明示的な中間的動的推論構造を設計し、最終回答予測にのみこの構造を用いるシンボリック推論を実施する。
InterVQAは、最先端(ソータ)のエンドタスクのパフォーマンスと同様に、高品質な明示的な中間推論ステップを生成する。
関連論文リスト
- Towards More Faithful Natural Language Explanation Using Multi-Level
Contrastive Learning in VQA [7.141288053123662]
視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために,自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。
既存のポストホックな説明は、人間の論理的推論と常に一致している訳ではなく、1) 誘惑的不満足な説明は、生成した説明が論理的に答えに繋がらないこと、2) 現実的不整合性、2) 画像上の事実を考慮せずに解答の反事実的説明を偽示すること、3) 意味的摂動の過敏性、モデルは、小さな摂動によって引き起こされる意味的変化を認識できないこと、である。
論文 参考訳(メタデータ) (2023-12-21T05:51:55Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Robust Explanations for Visual Question Answering [24.685231217726194]
本稿では,視覚的質問応答(VQA)の頑健な説明を得る手法を提案する。
本モデルは,視覚的およびテキスト的説明を提供することにより,VQAモデルを用いて得られた回答を説明する。
本稿では,視覚的およびテキスト的説明を用いた雑音による摂動攻撃に対するモデルの堅牢性を示す。
論文 参考訳(メタデータ) (2020-01-23T18:43:34Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。