論文の概要: Interpretable by Design Visual Question Answering
- arxiv url: http://arxiv.org/abs/2305.14882v1
- Date: Wed, 24 May 2023 08:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:14:22.616898
- Title: Interpretable by Design Visual Question Answering
- Title(参考訳): 視覚的質問応答による解釈
- Authors: Xingyu Fu, Ben Zhou, Sihao Chen, Mark Yatskar, Dan Roth
- Abstract要約: 解釈可能なVQAモデルは、画像のどの部分から得られる結論を判断できるべきだ、と我々は主張する。
ここでは、VQA問題に対する明示的な中間的動的推論構造を設計する。
InterVQAは、最先端(ソータ)のエンドタスクのパフォーマンスと同様に、高品質な明示的な中間推論ステップを生成する。
- 参考スコア(独自算出の注目度): 64.66788198885182
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Model interpretability has long been a hard problem for the AI community
especially in the multimodal setting, where vision and language need to be
aligned and reasoned at the same time. In this paper, we specifically focus on
the problem of Visual Question Answering (VQA). While previous researches try
to probe into the network structures of black-box multimodal models, we propose
to tackle the problem from a different angle -- to treat interpretability as an
explicit additional goal.
Given an image and question, we argue that an interpretable VQA model should
be able to tell what conclusions it can get from which part of the image, and
show how each statement help to arrive at an answer. We introduce InterVQA:
Interpretable-by-design VQA, where we design an explicit intermediate dynamic
reasoning structure for VQA problems and enforce symbolic reasoning that only
use the structure for final answer prediction to take place. InterVQA produces
high-quality explicit intermediate reasoning steps, while maintaining similar
to the state-of-the-art (sota) end-task performance.
- Abstract(参考訳): モデル解釈可能性(Model Interpretability)は、特に視覚と言語を同時に調整し、推論する必要があるマルチモーダル環境で、AIコミュニティにとって長年、難しい問題だった。
本稿では,視覚質問応答(VQA)の問題に着目する。
従来の研究はブラックボックスマルチモーダルモデルのネットワーク構造を探索しようとしていたが、我々は解釈可能性を明確な追加目標として扱うために、異なる角度からこの問題に取り組むことを提案した。
画像と疑問が与えられた場合、解釈可能なVQAモデルは、その画像のどの部分から得られる結論を判断し、各ステートメントがどのように回答にたどり着くかを示すことができるべきである。
ここでは、VQA問題に対する明示的な中間的動的推論構造を設計し、最終回答予測にのみこの構造を用いるシンボリック推論を実施する。
InterVQAは、最先端(ソータ)のエンドタスクのパフォーマンスと同様に、高品質な明示的な中間推論ステップを生成する。
関連論文リスト
- Causal Reasoning through Two Layers of Cognition for Improving
Generalization in Visual Question Answering [28.071906755200043]
VQA(Visual Question Answering)の一般化は、トレーニングディストリビューション以外のコンテキストによるイメージに関する質問に答えるモデルを必要とする。
本稿では,因果推論因子を強調することでマルチモーダル予測を改善する認知経路VQA(CopVQA)を提案する。
CopVQAは、PathVQAデータセット上の新しい最先端(SOTA)と、モデルサイズの4分の1のVQA-CPv2、VQAv2、VQA RAD上の現在のSOTAと同等の精度を達成する。
論文 参考訳(メタデータ) (2023-10-09T05:07:58Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - VQA-LOL: Visual Question Answering under the Lens of Logic [58.30291671877342]
画像に関する疑問に答えるように訓練された視覚的質問応答システムが,複数の質問の論理的構成に答えられるかどうかを検討する。
本稿では,VQAデータセットをベンチマークとして拡張し,論理的構成や言語的変換を含む質問を行う。
本稿では,論理的結合性を理解するために質問注意と論理意図を用いたLOLモデルと,新しいFr'echet-Compatibility Lossを提案する。
論文 参考訳(メタデータ) (2020-02-19T17:57:46Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。