論文の概要: RaV-IDP: A Reconstruction-as-Validation Framework for Faithful Intelligent Document Processing
- arxiv url: http://arxiv.org/abs/2604.23644v1
- Date: Sun, 26 Apr 2026 10:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.477631
- Title: RaV-IDP: A Reconstruction-as-Validation Framework for Faithful Intelligent Document Processing
- Title(参考訳): RaV-IDP: 忠実な文書処理のためのリコンストラクション・アズ・バリデーション・フレームワーク
- Authors: Pritesh Jha,
- Abstract要約: Restructation as Validation (RaV-IDP)は、第一級アーキテクチャコンポーネントとして再構築を導入するドキュメント処理パイプラインである。
専用再構成器は、抽出した表現を元の文書領域に匹敵する形式に戻す。
忠実度がエンタリティ型閾値以下になると、構造化されたGPT-4.1ビジョンフォールバックがトリガーされ、検証ループが繰り返される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent document processing pipelines extract structured entities (tables, images, and text) from documents for use in downstream systems such as knowledge bases, retrieval-augmented generation, and analytics. A persistent limitation of existing pipelines is that extraction output is produced without any intrinsic mechanism to verify whether it faithfully represents the source. Model-internal confidence scores measure inference certainty, not correspondence to the document, and extraction errors pass silently into downstream consumers. We present Reconstruction as Validation (RaV-IDP), a document processing pipeline that introduces reconstruction as a first-class architectural component. After each entity is extracted, a dedicated reconstructor renders the extracted representation back into a form comparable to the original document region, and a comparator scores fidelity between the reconstruction and the unmodified source crop. This fidelity score is a grounded, label-free quality signal. When fidelity falls below a per-entity-type threshold, a structured GPT-4.1 vision fallback is triggered and the validation loop repeats. We enforce a bootstrap constraint: the comparator always anchors against the original document region, never against the extraction, preventing the validation from becoming circular. We further propose a per-stage evaluation framework pairing each pipeline component with an appropriate benchmark. The code pipeline is publicly available at https://github.com/pritesh-2711/RaV-IDP for experimentation and use.
- Abstract(参考訳): インテリジェントドキュメント処理パイプラインは、構造化されたエンティティ(テーブル、画像、テキスト)を抽出し、知識ベース、検索強化生成、分析などの下流システムで使用する。
既存のパイプラインの永続的な制限は、抽出出力がソースを忠実に表現しているかどうかを検証する固有のメカニズムなしで生成されることである。
モデル内信頼スコアは、文書に対応せず、推測確実性を測定し、抽出エラーは下流の消費者に静かに渡される。
本稿では,レコンストラクションを第一級アーキテクチャコンポーネントとして導入する文書処理パイプラインであるReconstructation as Validation(RaV-IDP)を提案する。
各エンティティを抽出した後、専用再構成器は、抽出した表現を元の文書領域に匹敵する形式に戻すとともに、コンパレータは、再構成と修正されていないソース作物との忠実度をスコアする。
この忠実度スコアは、接地されたラベルなしの品質信号である。
忠実度がエンタリティ型閾値以下になると、構造化されたGPT-4.1ビジョンフォールバックがトリガーされ、検証ループが繰り返される。
我々はブートストラップの制約を強制し、コンパレータは常に元のドキュメント領域に対してアンカーし、抽出に逆らうことなく、検証が丸くなるのを防ぐ。
さらに、各パイプラインコンポーネントを適切なベンチマークでペアリングする、ステージごとの評価フレームワークを提案する。
コードパイプラインは、実験と使用のためにhttps://github.com/pritesh-2711/RaV-IDPで公開されている。
関連論文リスト
- Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems [0.0]
埋め込み空間における交叉重なりのモデル相対尺度として意味的絡み合いを定式化する。
埋め込みに先立って文書を再構成する4段階の事前処理フレームワークであるセマンティック・ディスタングルメント・パイプライン(SDP)を紹介した。
約25のサブドメインにわたる2,000以上のドキュメントからなる実世界の企業医療知識ベースでSDPを評価した。
論文 参考訳(メタデータ) (2026-04-20T00:24:34Z) - DocRevive: A Unified Pipeline for Document Text Restoration [8.164723249655319]
本稿では,最先端の光学文字認識(OCR)と高度な画像解析を組み合わせた,新しい統合パイプラインを提案する。
各種文書劣化シナリオをシミュレートする,30,078個の文書画像の合成データセットを作成する。
拡散ベースのモジュールはテキスト、フォント、サイズ、アライメントをシームレスに再統合する。
論文 参考訳(メタデータ) (2026-04-11T07:50:20Z) - RAID: Retrieval-Augmented Anomaly Detection [67.48358323718817]
RAIDは、ノイズ耐性の異常検出と局所化のために設計された検索拡張UADフレームワークである。
RAIDは階層ベクトルデータベースからクラス、セマンティック、インスタンスレベルの表現を取得する。
RAIDはMVTec、VisA、MPDD、BTADベンチマークのフルショット、少数ショット、マルチデータセット設定で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-23T08:54:27Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction [28.205723817300576]
ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
本稿では,統一パイプラインで文書ペア抽出を行う新しいフレームワークであるPEneoを紹介する。
論文 参考訳(メタデータ) (2024-01-07T12:48:07Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。