論文の概要: DocVCE: Diffusion-based Visual Counterfactual Explanations for Document Image Classification
- arxiv url: http://arxiv.org/abs/2508.04233v1
- Date: Wed, 06 Aug 2025 09:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.648189
- Title: DocVCE: Diffusion-based Visual Counterfactual Explanations for Document Image Classification
- Title(参考訳): DocVCE:文書画像分類のための拡散に基づく視覚的対実的説明
- Authors: Saifullah Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed,
- Abstract要約: 本稿では,行動可能な説明を通じて,モデルの決定に意味のある洞察を与える,生成的文書反事実について紹介する。
著者の知識を最大限に活用するために、これは文書画像解析における生成的対実的説明を探求する最初の研究である。
- 参考スコア(独自算出の注目度): 5.247930659596986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As black-box AI-driven decision-making systems become increasingly widespread in modern document processing workflows, improving their transparency and reliability has become critical, especially in high-stakes applications where biases or spurious correlations in decision-making could lead to serious consequences. One vital component often found in such document processing workflows is document image classification, which, despite its widespread use, remains difficult to explain. While some recent works have attempted to explain the decisions of document image classification models through feature-importance maps, these maps are often difficult to interpret and fail to provide insights into the global features learned by the model. In this paper, we aim to bridge this research gap by introducing generative document counterfactuals that provide meaningful insights into the model's decision-making through actionable explanations. In particular, we propose DocVCE, a novel approach that leverages latent diffusion models in combination with classifier guidance to first generate plausible in-distribution visual counterfactual explanations, and then performs hierarchical patch-wise refinement to search for a refined counterfactual that is closest to the target factual image. We demonstrate the effectiveness of our approach through a rigorous qualitative and quantitative assessment on 3 different document classification datasets -- RVL-CDIP, Tobacco3482, and DocLayNet -- and 3 different models -- ResNet, ConvNeXt, and DiT -- using well-established evaluation criteria such as validity, closeness, and realism. To the best of the authors' knowledge, this is the first work to explore generative counterfactual explanations in document image analysis.
- Abstract(参考訳): 現代のドキュメント処理ワークフローでは、ブラックボックスのAI駆動による意思決定システムがますます普及するにつれて、透明性と信頼性の向上が重要になっている。
このような文書処理ワークフローでよく見られる重要な要素は、文書画像分類である。
近年の研究では、特徴重要度マップによる文書画像分類モデルの決定についての説明が試みられているが、これらの地図は解釈が困難であり、そのモデルが学習したグローバルな特徴についての洞察の提供に失敗することが多い。
本稿では,本研究のギャップを補うために,行動可能な説明を通じて,モデルの決定に意味のある洞察を与える生成文書の反事実を導入することを目的とする。
特に,提案するDocVCEは,遅延拡散モデルと分類器のガイダンスを組み合わせることで,まず視覚的因果的説明(in-distriion visual counterfactual explanations)を生成し,次に階層的なパッチワイズを行い,対象の事実像に最も近い精細な反事実を探索する手法を提案する。
本稿では,3種類の文書分類データセット(RVL-CDIP,Tobacco3482,DocLayNet)とResNet,ConvNeXt,DiT)を,妥当性,近接性,リアリズムなどの確立した評価基準を用いて,厳密な質的,定量的な評価を行った。
著者の知識を最大限に活用するために、これは文書画像解析における生成的対実的説明を探求する最初の研究である。
関連論文リスト
- DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model [25.504170988714783]
ドキュメンテーションデワープは、写真文書画像の変形を補正することを目的としており、テキストの可読性を向上させる。
我々はtextbfDiffusion フレームワークを用いて textbfDewarping textbf に取り組むための最初の生成モデル DvD を提案する。
論文 参考訳(メタデータ) (2025-05-28T05:05:51Z) - DocXplain: A Novel Model-Agnostic Explainability Method for Document Image Classification [5.247930659596986]
本稿では,高解釈性特徴属性マップの生成に特化して設計された新しいモデルに依存しない説明可能性手法であるDocXplainを紹介する。
4つの異なる評価指標を用いて,文書画像分類の文脈において提案手法を広範囲に評価した。
著者の知識を最大限に活用するために、本研究は、特に文書画像に適した、モデルに依存しない属性に基づく説明可能性法を初めて提示する。
論文 参考訳(メタデータ) (2024-07-04T10:59:15Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding [88.88844606781987]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z) - An Intelligent Hybrid Model for Identity Document Classification [0.0]
デジタル化は、生産性の向上、災害復旧、環境に優しいソリューションなどの機会とビジネスへの挑戦を提供する。
主な課題の1つは、顧客によって毎日アップロードされた多数のスキャンされたドキュメントを正確に分類することである。
画像分類の応用としてこの課題に対処する研究はほとんどない。
提案手法はPythonを用いて実装され、合成および実世界のデータセットで実験的に検証されている。
論文 参考訳(メタデータ) (2021-06-07T13:08:00Z) - Hierarchical Interaction Networks with Rethinking Mechanism for
Document-level Sentiment Analysis [37.20068256769269]
文書レベルの感性分析(DSA)は、あいまいなセマンティックリンクと感情情報の複雑化により、より困難である。
そこで本研究では,DSAにおける対象の明示的パターンと感情文脈を用いた識別表現を効果的に生成する方法について検討する。
感性に基づく再考機構(SR)を,感情ラベル情報を用いてHINを精製し,より感情に敏感な文書表現を学習することによって設計する。
論文 参考訳(メタデータ) (2020-07-16T16:27:38Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。