論文の概要: Quid est VERITAS? A Modular Framework for Archival Document Analysis
- arxiv url: http://arxiv.org/abs/2603.28108v1
- Date: Mon, 30 Mar 2026 07:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.271457
- Title: Quid est VERITAS? A Modular Framework for Archival Document Analysis
- Title(参考訳): クイッド・エスト・ヴェリタス : アーカイブ文書分析のためのモジュラー・フレームワーク
- Authors: Leonardo Bassanini, Ludovico Biancardi, Alfio Ferrara, Andrea Gamberini, Sergio Picascia, Folco Vaglienti,
- Abstract要約: 本稿では、デジタル化を転写、レイアウト分析、セマンティックエンリッチメントを含む統合ワークフローとして再認識するフレームワークであるVERITASを提案する。
我々は,ベルナルディーノ・コリオの『ミラノのストリア』の批判版において,1,600ページを超えるルネサンス期の年代記であるVERITASを評価した。
- 参考スコア(独自算出の注目度): 2.4937400423177762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digitisation of historical documents has traditionally been conceived as a process limited to character-level transcription, producing flat text that lacks the structural and semantic information necessary for substantive computational analysis. We present VERITAS (Vision-Enhanced Reading, Interpretation, and Transcription of Archival Sources), a modular, model-agnostic framework that reconceptualises digitisation as an integrated workflow encompassing transcription, layout analysis, and semantic enrichment. The pipeline is organised into four stages - Preprocessing, Extraction, Refinement, and Enrichment - and employs a schema-driven architecture that allows researchers to declaratively specify their extraction objectives. We evaluate VERITAS on the critical edition of Bernardino Corio's Storia di Milano, a Renaissance chronicle of over 1,600 pages. Results demonstrate that the pipeline achieves a 67.6% relative reduction in word error rate compared to a commercial OCR baseline, with a threefold reduction in end-to-end processing time when accounting for manual correction. We further illustrate the downstream utility of the pipeline's output by querying the transcribed corpus through a retrieval-augmented generation system, demonstrating its capacity to support historical inquiry.
- Abstract(参考訳): 歴史的文書のデジタル化は伝統的に文字レベルの転写に限られるプロセスとして考えられており、実体的な計算分析に必要な構造的・意味的な情報を持たない平文を生成する。
本稿では,転写,レイアウト解析,セマンティックエンリッチメントを含む統合ワークフローとして,デジタル化を再認識するモジュール型モデル依存フレームワークであるVERITAS(Vision-Enhanced Reading, Interpretation, Transcription of Archival Sources)を提案する。
パイプラインは前処理、抽出、リファインメント、エンリッチメントの4つのステージに編成され、研究者が宣言的に抽出目標を指定できるスキーマ駆動アーキテクチャを採用している。
我々は,ベルナルディーノ・コリオの『ミラノのストリア』の批判版において,1,600ページを超えるルネサンス期の年代記であるVERITASを評価した。
その結果、パイプラインは商用のOCRベースラインと比較して単語誤り率を67.6%削減し、手動修正を行う場合のエンドツーエンド処理時間を3倍削減した。
さらに, 検索拡張生成システムを通じて書き起こされたコーパスを問合せし, 過去の調査を支援する能力を示すことで, パイプライン出力のダウンストリームユーティリティについて述べる。
関連論文リスト
- Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - Layout-Aware OCR for Black Digital Archives with Unsupervised Evaluation [0.0]
我々は,ブラック新聞アーカイブに適したレイアウト対応OCRパイプラインを提案する。
提案手法は, 合成レイアウト生成, 拡張データに基づくモデル事前学習, 最先端のYou Only Look Once(YOLO)検出器の融合と統合する。
この結果は,AIによる文書理解において,文化的なレイアウトロジックを尊重することの重要性を強調した。
論文 参考訳(メタデータ) (2025-09-16T16:43:34Z) - DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
論文 参考訳(メタデータ) (2025-06-01T15:19:52Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Document Structure in Long Document Transformers [64.76981299465885]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。
文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。
長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか?
事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文 参考訳(メタデータ) (2024-01-31T08:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。