論文の概要: DocVXQA: Context-Aware Visual Explanations for Document Question Answering
- arxiv url: http://arxiv.org/abs/2505.07496v1
- Date: Mon, 12 May 2025 12:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.373186
- Title: DocVXQA: Context-Aware Visual Explanations for Document Question Answering
- Title(参考訳): DocVXQA: 文書質問応答のためのコンテキスト対応ビジュアル説明
- Authors: Mohamed Ali Souibgui, Changkyu Choi, Andrey Barsky, Kangsoo Jung, Ernest Valveny, Dimosthenis Karatzas,
- Abstract要約: 本稿では,視覚的に自己説明可能な文書質問応答のための新しいフレームワークDocVXQAを提案する。
このフレームワークは、質問に対する正確な回答を生成するだけでなく、文脈的に重要な領域をハイライトする視覚的なヒートマップを学ぶために設計されている。
- 参考スコア(独自算出の注目度): 12.416787701296236
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose DocVXQA, a novel framework for visually self-explainable document question answering. The framework is designed not only to produce accurate answers to questions but also to learn visual heatmaps that highlight contextually critical regions, thereby offering interpretable justifications for the model's decisions. To integrate explanations into the learning process, we quantitatively formulate explainability principles as explicit learning objectives. Unlike conventional methods that emphasize only the regions pertinent to the answer, our framework delivers explanations that are \textit{contextually sufficient} while remaining \textit{representation-efficient}. This fosters user trust while achieving a balance between predictive performance and interpretability in DocVQA applications. Extensive experiments, including human evaluation, provide strong evidence supporting the effectiveness of our method. The code is available at https://github.com/dali92002/DocVXQA.
- Abstract(参考訳): 本稿では,視覚的に自己説明可能な文書質問応答のための新しいフレームワークDocVXQAを提案する。
このフレームワークは、質問に対する正確な回答を生成するだけでなく、文脈的に重要な領域をハイライトする視覚的なヒートマップを学習し、モデルの決定に対する解釈可能な正当化を提供するように設計されている。
学習過程に説明を統合するために,説明可能性の原則を明示的な学習目的として定量的に定式化する。
応答に関係する領域のみを強調する従来の方法とは異なり、我々のフレームワークは、残りは、textit{contextually enough} でありながら、textit{representation-efficient} である説明を提供する。
これにより、DocVQAアプリケーションの予測性能と解釈可能性のバランスを保ちながら、ユーザの信頼を高めることができる。
ヒトの評価を含む大規模な実験は,本手法の有効性を裏付ける強い証拠を提供する。
コードはhttps://github.com/dali92002/DocVXQA.comで入手できる。
関連論文リスト
- Answer is All You Need: Instruction-following Text Embedding via
Answering the Question [41.727700155498546]
本稿では、入力テキストに関する質問として命令を扱い、予測された回答を符号化して表現を得る新しい視点を提供する。
具体的には,抽象的質問応答タスクの言語モデルのみを微調整することで,この組込み解答のアイデアをインスタンス化するInBedderを提案する。
論文 参考訳(メタデータ) (2024-02-15T01:02:41Z) - A Simple Baseline for Knowledge-Based Visual Question Answering [78.00758742784532]
本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-20T15:08:17Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Grow-and-Clip: Informative-yet-Concise Evidence Distillation for Answer
Explanation [22.20733260041759]
我々は、QAモデルの解釈可能性を高めるために、解答の証拠が重要であると論じる。
我々は、証拠の概念を、情報的で簡潔で読みやすい文脈における支援事実として明確に定義する最初の人物である。
本稿では, トレードオフ情報性, 簡潔性, 可読性からエビデンスを抽出するGCEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-13T17:18:17Z) - Visual Question Answering with Prior Class Semantics [50.845003775809836]
候補解のセマンティクスに関連する追加情報を利用する方法を示す。
セマンティック空間における回帰目標を用いて解答予測プロセスを拡張する。
提案手法は,様々な質問タイプに対して,一貫性と精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-05-04T02:46:31Z) - Robust Explanations for Visual Question Answering [24.685231217726194]
本稿では,視覚的質問応答(VQA)の頑健な説明を得る手法を提案する。
本モデルは,視覚的およびテキスト的説明を提供することにより,VQAモデルを用いて得られた回答を説明する。
本稿では,視覚的およびテキスト的説明を用いた雑音による摂動攻撃に対するモデルの堅牢性を示す。
論文 参考訳(メタデータ) (2020-01-23T18:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。