論文の概要: How Do Document Parsers Break? Auditing Structural Vulnerability in Document Intelligence
- arxiv url: http://arxiv.org/abs/2605.19309v2
- Date: Tue, 26 May 2026 13:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.763058
- Title: How Do Document Parsers Break? Auditing Structural Vulnerability in Document Intelligence
- Title(参考訳): ドキュメントパーザはどのように崩壊するか? ドキュメントインテリジェンスにおける構造的脆弱性の検証
- Authors: Yue Chen, Yihao Wang, Ziyi Tang, Yongsen Zheng, Keze Wang,
- Abstract要約: 本稿では,制御された探索,ポリシー駆動型ターゲティング,構造認識診断を分離する軽量な出力レベル監査フレームワークであるProSAを提案する。
ProSAは、構造的アイデンティティが失われる場所、露光障害が発生する場所、そして障害がどのように伝播するかを分析します。
これらの結果はDLA評価をフットプリントに基づくストレステストから構造認識型脆弱性監査へシフトさせる。
- 参考スコア(独自算出の注目度): 35.33453950403692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Layout Analysis (DLA) pipelines provide structured page representations for retrieval-augmented generation, long-document question answering, and other document intelligence systems, yet their robustness evaluation remains largely area-centric. We identify this Footprint Bias and propose ProSA, a lightweight output-level auditing framework that decouples controlled probing, policy-driven targeting, and structure-aware diagnosis. ProSA combines Block-level Structural Loss Rate (B-SLR), granularity-aware exposure descriptors, and pathway attribution to analyze where structural identity is lost, at what exposure granularity failures emerge, and how failures propagate. Across MinerU and PP-StructureV3 on 1,000 pages, affected area weakly tracks perturbation-induced OCR instability (R^2=0.384/0.110), whereas B-SLR aligns much more closely with it (R^2=0.727/0.916). Exposure descriptors further separate occlusion- and topology-dominant pathways, while matched-footprint structural probes cause much larger downstream QA/retrieval degradation compared to area-matched erasure. These results shift DLA robustness evaluation from footprint-based stress testing toward structure-aware vulnerability auditing.
- Abstract(参考訳): Document Layout Analysis (DLA)パイプラインは、検索強化された生成、長期文書質問応答、その他の文書インテリジェンスシステムのための構造化ページ表現を提供するが、その堅牢性評価は領域中心のままである。
本稿では,このフットプリントバイアスを識別し,制御された探索,ポリシー駆動型ターゲティング,構造認識診断を分離する軽量な出力レベル監査フレームワークであるProSAを提案する。
ProSAは、Block-level Structure Loss Rate (B-SLR)、粒度認識型露光記述子、および経路属性を組み合わせて、どの構造アイデンティティが失われるか、どの露出粒度障害が発生するか、どのように失敗が伝播するかを分析する。
MinerU と PP-StructureV3 の1,000ページにわたる影響領域は摂動によって引き起こされる OCR 不安定性 (R^2=0.384/0.110) を弱く追跡するが、B-SLR はそれとより密接に協調する(R^2=0.727/0.916)。
露光ディスクリプタは、さらにオクルージョンとトポロジーに支配的な経路を分離する一方、マッチしたフットプリント構造プローブは、領域整合の消去よりも下流のQA/検索の劣化をはるかに大きくする。
これらの結果はDLAのロバスト性評価をフットプリントに基づくストレステストから構造認識型脆弱性監査へシフトさせる。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - TopoChunker: Topology-Aware Agentic Document Chunking Framework [5.304983617085637]
TopoChunkerは異種文書を構造化中間表現(Structured Intermediate Representation, SIR)にマッピングするエージェントフレームワークである
構造的忠実度と計算コストのバランスをとるため、TopoChunkerはデュアルエージェントアーキテクチャを採用している。
絶対生成精度が8.0%向上し、83.26%のRecall@3を達成し、同時にトークンオーバーヘッドを23.5%削減した。
論文 参考訳(メタデータ) (2026-03-19T02:15:10Z) - PT-RAG: Structure-Fidelity Retrieval-Augmented Generation for Academic Papers [8.665160048483655]
本稿では,学術論文の階層構造を低エントロピー検索として扱うRAGフレームワークPT-RAGを提案する。
最初はネイティブ階層を継承し、ソースのエントロピー増加を防ぐ構造忠実度PaperTreeインデックスを構築する。
その後、クエリセマンティクスを関連するセクションに整列し、固定トークン予算の下で高関連性ルート・ツー・リーフパスを選択するパス誘導検索機構を設計する。
論文 参考訳(メタデータ) (2026-02-14T07:40:09Z) - Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis [0.8193467416247519]
レビューとメタ分析は、物語を構造化され、数値化された研究記録に変換することに頼っている。
大規模言語モデル(LLM)の急速な進歩にもかかわらず、このプロセスの構造的要件を満たすことができるかどうかは不明だ。
本稿では,LLMに基づくエビデンス抽出をスキーマ制約クエリの進行として評価する構造的診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:09:43Z) - Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering [0.0]
大規模言語モデル(LLM)の公衆衛生政策分野への統合は、疾病管理予防センター(CDC)などの機関が管理する規制ガイダンスの膨大なリポジトリをナビゲートするための変革的なアプローチを提供する。
LLMが幻覚を発生させることの正当性は、情報整合性が不可能なハイテイク環境において、これらの技術を採用する上で重要な障壁となる。
この経験的評価は、信頼できる文書コンテキストにおける生成出力を基盤として、これらのリスクを軽減するために、検索型拡張生成(RAG)アーキテクチャの有効性を探求するものである。
論文 参考訳(メタデータ) (2026-01-21T20:52:48Z) - PaperAudit-Bench: Benchmarking Error Detection in Research Papers for Critical Automated Peer Review [54.141490756509306]
本稿では、エラーデータセットであるPaperAudit-Datasetと、自動レビューフレームワークであるPaperAudit-Reviewの2つのコンポーネントからなるPaperAudit-Benchを紹介する。
PaperAudit-Benchの実験では、モデルと検出深さの誤差検出可能性に大きなばらつきが示された。
本研究では,SFTおよびRLによる軽量LLM検出器のトレーニングをサポートし,計算コストの削減による効率的な誤り検出を実現する。
論文 参考訳(メタデータ) (2026-01-07T04:26:12Z) - RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [33.389969814185214]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。
既存の評価では、RAGシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどれくらいうまく対処しているかを検査することはめったにない。
本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文 参考訳(メタデータ) (2025-06-01T02:42:36Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - TopoFR: A Closer Look at Topology Alignment on Face Recognition [58.45515807380505]
PTSAと呼ばれるトポロジカル構造アライメント戦略とSDEという硬質試料マイニング戦略を利用する新しいFRモデルであるTopoFRを提案する。
PTSAは永続ホモロジーを用いて入力空間と潜在空間の位相構造を整列し、構造情報を効果的に保存し、FRモデルの一般化性能を向上させる。
一般的な顔のベンチマーク実験の結果は、最先端の手法よりもTopoFRの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-10-14T14:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。