論文の概要: Revise: A Framework for Revising OCRed text in Practical Information Systems with Data Contamination Strategy
- arxiv url: http://arxiv.org/abs/2604.08115v1
- Date: Thu, 09 Apr 2026 11:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.885926
- Title: Revise: A Framework for Revising OCRed text in Practical Information Systems with Data Contamination Strategy
- Title(参考訳): 改訂: データ汚染戦略を用いた実践情報システムにおけるOCRテキストの改訂フレームワーク
- Authors: Gyuho Shim, Seongtae Hong, Heuiseok Lim,
- Abstract要約: Reviseは、OCRが導入したエラーを文字、単語、構造レベルで体系的に修正するフレームワークである。
実験結果から,OCR出力を効果的に補正し,文書内容のより構造化された表現と体系的な管理を可能にした。
- 参考スコア(独自算出の注目度): 19.295619229517936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have significantly improved the field of Document AI, demonstrating remarkable performance on document understanding tasks such as question answering. However, existing approaches primarily focus on solving specific tasks, lacking the capability to structurally organize and manage document information. To address this limitation, we propose Revise, a framework that systematically corrects errors introduced by OCR at the character, word, and structural levels. Specifically, Revise employs a comprehensive hierarchical taxonomy of common OCR errors and a synthetic data generation strategy that realistically simulates such errors to train an effective correction model. Experimental results demonstrate that Revise effectively corrects OCR outputs, enabling more structured representation and systematic management of document contents. Consequently, our method significantly enhances downstream performance in document retrieval and question answering tasks, highlighting the potential to overcome the structural management limitations of existing Document AI frameworks.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ドキュメントAIの分野を著しく改善し、質問応答などの文書理解タスクにおいて顕著なパフォーマンスを示している。
しかし、既存のアプローチは主に特定のタスクの解決に重点を置いており、文書情報を構造的に整理し管理する能力が欠如している。
この制限に対処するため,OCRが文字,単語,構造レベルで導入した誤りを体系的に補正するフレームワークであるReviseを提案する。
具体的には、一般的なOCRエラーの包括的な階層的な分類法と、そのようなエラーを現実的にシミュレートして効果的な修正モデルを訓練する合成データ生成戦略を用いる。
実験結果から,OCR出力を効果的に補正し,文書内容のより構造化された表現と体系的な管理を可能にした。
その結果,提案手法は文書検索や質問応答タスクにおけるダウンストリーム性能を大幅に向上させ,既存のドキュメントAIフレームワークの構造的管理の限界を克服する可能性を強調した。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Equipping Retrieval-Augmented Large Language Models with Document Structure Awareness [15.810758425275322]
本稿では,RAGプロセス全体を通して構造情報を明示的に組み込む新しいフレームワークであるRetrieve-DocumentRoute-Read (RDR2)を提案する。
RDR2 は LLM ベースのルータを用いて文書構造木を動的にナビゲートする。
我々の重要な革新は、文書のルーティングをトレーニング可能なタスクとして定式化することであり、自動的なアクションキュレーションと、人間の読書戦略にインスパイアされた構造対応の通路選択である。
論文 参考訳(メタデータ) (2025-10-05T17:04:24Z) - DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - HiCaM: A Hierarchical-Causal Modification Framework for Long-Form Text Modification [28.95532154637662]
HiCaMは階層的・因果的な修正フレームワークであり、階層的な要約ツリーと因果グラフを通して動作する。
複数のモデルとドメインで一貫したパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2025-05-30T08:02:48Z) - DocSum: Domain-Adaptive Pre-training for Document Abstractive Summarization [2.8201999897313015]
抽象的な要約は、大量のテキストをコヒーレントな要約に凝縮し、言い換える上で重要な一歩を踏み出した。
既存のモデルは、しばしばそのような文書の複雑な構造や専門的な内容に適応するのに苦労する。
本稿では,管理文書に適したドメイン適応型抽象要約フレームワークDocSumを紹介する。
論文 参考訳(メタデータ) (2024-12-11T08:36:50Z) - ARCEAK: An Automated Rule Checking Framework Enhanced with Architectural Knowledge [2.0159170788984024]
ARC(Automated Rule Checking, 自動ルールチェック)は、産業専門家が実施する従来のモデルレビューの、面倒で一貫性のない、エラーを起こしやすい性質に対処することで、建設産業を前進させる上で重要な役割を担っている。
本研究では,ARCをルール情報抽出と検証コード生成の2つのタスクに分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T10:37:11Z) - StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - Enhancing Document-level Argument Extraction with Definition-augmented Heuristic-driven Prompting for LLMs [0.0]
イベント引数抽出(EAE)は、構造化されていないテキストから構造化された情報を抽出するための重要な手段である。
本研究では,文書レベルEAEにおけるLarge Language Models (LLMs) の性能向上を目的とした定義拡張ヒューリスティック・プロンプト(DHP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T19:03:14Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。