論文の概要: Towards Reasoning-Aware Explainable VQA
- arxiv url: http://arxiv.org/abs/2211.05190v1
- Date: Wed, 9 Nov 2022 20:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 15:06:27.983481
- Title: Towards Reasoning-Aware Explainable VQA
- Title(参考訳): 推論型説明可能なVQAを目指して
- Authors: Rakesh Vaideeswaran, Feng Gao, Abhinav Mathur, Govind Thattai
- Abstract要約: VQA(Visual Question Answering)モデルのためのエンドツーエンドの説明生成モジュールを構築した。
本手法は,SOTA VQAの精度を維持しつつ,可読なテキスト記述を生成する。
生成された説明の約65.16%が人間によって有効であると承認されている。
- 参考スコア(独自算出の注目度): 2.8490123117284316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The domain of joint vision-language understanding, especially in the context
of reasoning in Visual Question Answering (VQA) models, has garnered
significant attention in the recent past. While most of the existing VQA models
focus on improving the accuracy of VQA, the way models arrive at an answer is
oftentimes a black box. As a step towards making the VQA task more explainable
and interpretable, our method is built upon the SOTA VQA framework by
augmenting it with an end-to-end explanation generation module. In this paper,
we investigate two network architectures, including Long Short-Term Memory
(LSTM) and Transformer decoder, as the explanation generator. Our method
generates human-readable textual explanations while maintaining SOTA VQA
accuracy on the GQA-REX (77.49%) and VQA-E (71.48%) datasets. Approximately
65.16% of the generated explanations are approved by humans as valid. Roughly
60.5% of the generated explanations are valid and lead to the correct answers.
- Abstract(参考訳): 共同視覚言語理解の領域、特に視覚質問回答(VQA)モデルにおける推論の文脈では、近年大きな注目を集めている。
既存のVQAモデルのほとんどは、VQAの精度向上に重点を置いているが、モデルが解答に到達する方法はしばしばブラックボックスである。
VQA タスクをより説明しやすく解釈できるようにするためのステップとして,本手法は SOTA VQA フレームワーク上にエンド・ツー・エンドの説明生成モジュールで拡張することによって構築される。
本稿では,Long Short-Term Memory (LSTM) と Transformer decoder の2つのネットワークアーキテクチャを説明生成器として検討する。
本手法は, GQA-REX (77.49%) および VQA-E (71.48%) データセット上で SOTA VQA の精度を維持しながら, 可読なテキスト説明を生成する。
生成された説明の約65.16%は、人間が有効と承認している。
生成された説明のおよそ60.5%が有効であり、正しい答えにつながる。
関連論文リスト
- Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model [4.41132900194195]
人手による質問(CoQAH)に対するQAの連鎖という新しい手法を提案する。
CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。
我々は,3Dレンダー画像と胸部X線画像の2種類のVQAデータセットに対するCoQAHの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-12T06:49:49Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Towards a Unified Model for Generating Answers and Explanations in
Visual Question Answering [11.754328280233628]
我々は、QAモデルとは無関係なトレーニング説明モデルにより、説明の根拠が減り、性能が制限されると主張している。
本稿では,統一モデルに対するマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-25T19:29:19Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。