論文の概要: Multimodal Rationales for Explainable Visual Question Answering
- arxiv url: http://arxiv.org/abs/2402.03896v3
- Date: Tue, 10 Jun 2025 09:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:38.362781
- Title: Multimodal Rationales for Explainable Visual Question Answering
- Title(参考訳): 説明可能な視覚質問応答のためのマルチモーダル合理化
- Authors: Kun Li, George Vosselman, Michael Ying Yang,
- Abstract要約: VQA(Visual Question Answering)は、画像の内容に関する質問に対する回答を予測するための課題である。
MRVQAと呼ばれる新しいモデルを提案し、予測された回答をサポートするために視覚的およびテキスト的根拠を提供する。
MRVQAは、新たな合理的な生成を通じて、新しい最先端の結果を達成し、モデルの信頼性を高める。
- 参考スコア(独自算出の注目度): 12.893224628061516
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual Question Answering (VQA) is a challenging task of predicting the answer to a question about the content of an image. Prior works directly evaluate the answering models by simply calculating the accuracy of predicted answers. However, the inner reasoning behind the predictions is disregarded in such a "black box" system, and we cannot ascertain the trustworthiness of the predictions. Even more concerning, in some cases, these models predict correct answers despite focusing on irrelevant visual regions or textual tokens. To develop an explainable and trustworthy answering system, we propose a novel model termed MRVQA (Multimodal Rationales for VQA), which provides visual and textual rationales to support its predicted answers. To measure the quality of generated rationales, a new metric vtS (visual-textual Similarity) score is introduced from both visual and textual perspectives. Considering the extra annotations distinct from standard VQA, MRVQA is trained and evaluated using samples synthesized from some existing datasets. Extensive experiments across three EVQA datasets demonstrate that MRVQA achieves new state-of-the-art results through additional rationale generation, enhancing the trustworthiness of the explainable VQA model. The code and the synthesized dataset are released under https://github.com/lik1996/MRVQA2025.
- Abstract(参考訳): VQA(Visual Question Answering)は、画像の内容に関する質問に対する回答を予測するための課題である。
先行研究は、予測された回答の精度を単純に計算することで、解答モデルを直接評価する。
しかし、このような「ブラックボックス」システムでは、予測の背後にある内部的推論は無視されており、予測の信頼性を確認できない。
さらに、これらのモデルは、無関係な視覚領域やテキストトークンに注目しながら、正しい答えを予測する場合もある。
MRVQA(Multimodal Rationales for VQA)と呼ばれる新しいモデルを提案する。
生成した有理数の品質を測定するために、視覚とテキストの両方の観点から新しい計量 vtS (visual-textual similarity) スコアを導入する。
標準VQAとは異なる追加アノテーションを考慮すると、MRVQAは既存のデータセットから合成されたサンプルを使用して訓練され、評価される。
3つのEVQAデータセットにわたる広範囲な実験により、MRVQAは、説明可能なVQAモデルの信頼性を高め、さらなる合理的な生成を通じて、新しい最先端の結果を達成することを示した。
コードと合成データセットはhttps://github.com/lik 1996/MRVQA2025で公開されている。
関連論文リスト
- Fully Authentic Visual Question Answering Dataset from Online Communities [72.0524198499719]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
このデータセットと8つの主流VQAデータセットとの関係を特徴付ける。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - Generating Rationales in Visual Question Answering [28.45552957339557]
視覚質問応答(VQA)のための新しいタスク分岐生成法を提案する。
VCR(Visual Commonsense Rea-soning)タスクのデータを、視覚的な質問や回答とともに、基礎的真実を含むものとして使用しています。
我々は、VQAにおける解答の予測と合理性の生成という2つのタスクで、GPT-2でVLBERTをエンドツーエンドで訓練する。
論文 参考訳(メタデータ) (2020-04-04T22:15:35Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。