論文の概要: DocVXQA: Context-Aware Visual Explanations for Document Question Answering
- arxiv url: http://arxiv.org/abs/2505.07496v1
- Date: Mon, 12 May 2025 12:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.373186
- Title: DocVXQA: Context-Aware Visual Explanations for Document Question Answering
- Title(参考訳): DocVXQA: 文書質問応答のためのコンテキスト対応ビジュアル説明
- Authors: Mohamed Ali Souibgui, Changkyu Choi, Andrey Barsky, Kangsoo Jung, Ernest Valveny, Dimosthenis Karatzas,
- Abstract要約: 本稿では,視覚的に自己説明可能な文書質問応答のための新しいフレームワークDocVXQAを提案する。
このフレームワークは、質問に対する正確な回答を生成するだけでなく、文脈的に重要な領域をハイライトする視覚的なヒートマップを学ぶために設計されている。
- 参考スコア(独自算出の注目度): 12.416787701296236
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose DocVXQA, a novel framework for visually self-explainable document question answering. The framework is designed not only to produce accurate answers to questions but also to learn visual heatmaps that highlight contextually critical regions, thereby offering interpretable justifications for the model's decisions. To integrate explanations into the learning process, we quantitatively formulate explainability principles as explicit learning objectives. Unlike conventional methods that emphasize only the regions pertinent to the answer, our framework delivers explanations that are \textit{contextually sufficient} while remaining \textit{representation-efficient}. This fosters user trust while achieving a balance between predictive performance and interpretability in DocVQA applications. Extensive experiments, including human evaluation, provide strong evidence supporting the effectiveness of our method. The code is available at https://github.com/dali92002/DocVXQA.
- Abstract(参考訳): 本稿では,視覚的に自己説明可能な文書質問応答のための新しいフレームワークDocVXQAを提案する。
このフレームワークは、質問に対する正確な回答を生成するだけでなく、文脈的に重要な領域をハイライトする視覚的なヒートマップを学習し、モデルの決定に対する解釈可能な正当化を提供するように設計されている。
学習過程に説明を統合するために,説明可能性の原則を明示的な学習目的として定量的に定式化する。
応答に関係する領域のみを強調する従来の方法とは異なり、我々のフレームワークは、残りは、textit{contextually enough} でありながら、textit{representation-efficient} である説明を提供する。
これにより、DocVQAアプリケーションの予測性能と解釈可能性のバランスを保ちながら、ユーザの信頼を高めることができる。
ヒトの評価を含む大規模な実験は,本手法の有効性を裏付ける強い証拠を提供する。
コードはhttps://github.com/dali92002/DocVXQA.comで入手できる。
関連論文リスト
- A Counterfactual Explanation Framework for Retrieval Models [4.562474301450839]
我々は,検索モデルにより文書に好ましくない言葉がどのような役割を担っていたか,という問題を解くために,反実的枠組みを用いる。
本実験は,統計モデル(BM25など)とディープラーニングモデルの両方に対して,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-09-01T22:33:29Z) - Answer is All You Need: Instruction-following Text Embedding via
Answering the Question [41.727700155498546]
本稿では、入力テキストに関する質問として命令を扱い、予測された回答を符号化して表現を得る新しい視点を提供する。
具体的には,抽象的質問応答タスクの言語モデルのみを微調整することで,この組込み解答のアイデアをインスタンス化するInBedderを提案する。
論文 参考訳(メタデータ) (2024-02-15T01:02:41Z) - A Simple Baseline for Knowledge-Based Visual Question Answering [78.00758742784532]
本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-20T15:08:17Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - R$^2$F: A General Retrieval, Reading and Fusion Framework for
Document-level Natural Language Inference [29.520857954199904]
文書レベルの自然言語推論(DOCNLI)は、自然言語処理における新しい課題である。
我々は、Retrieval, Reading and Fusion (R2F)フレームワークと呼ばれる一般的なソリューションと、新しい設定を確立する。
実験結果から,R2Fフレームワークは最先端の性能を得ることができ,多種多様なエビデンス検索手法に対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-10-22T02:02:35Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - Grow-and-Clip: Informative-yet-Concise Evidence Distillation for Answer
Explanation [22.20733260041759]
我々は、QAモデルの解釈可能性を高めるために、解答の証拠が重要であると論じる。
我々は、証拠の概念を、情報的で簡潔で読みやすい文脈における支援事実として明確に定義する最初の人物である。
本稿では, トレードオフ情報性, 簡潔性, 可読性からエビデンスを抽出するGCEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-13T17:18:17Z) - Visual Question Answering with Prior Class Semantics [50.845003775809836]
候補解のセマンティクスに関連する追加情報を利用する方法を示す。
セマンティック空間における回帰目標を用いて解答予測プロセスを拡張する。
提案手法は,様々な質問タイプに対して,一貫性と精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-05-04T02:46:31Z) - Robust Explanations for Visual Question Answering [24.685231217726194]
本稿では,視覚的質問応答(VQA)の頑健な説明を得る手法を提案する。
本モデルは,視覚的およびテキスト的説明を提供することにより,VQAモデルを用いて得られた回答を説明する。
本稿では,視覚的およびテキスト的説明を用いた雑音による摂動攻撃に対するモデルの堅牢性を示す。
論文 参考訳(メタデータ) (2020-01-23T18:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。