Fugu-MT 論文翻訳(概要): DocRevive: A Unified Pipeline for Document Text Restoration

論文の概要: DocRevive: A Unified Pipeline for Document Text Restoration

arxiv url: http://arxiv.org/abs/2604.10077v1
Date: Sat, 11 Apr 2026 07:50:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:15.82726
Title: DocRevive: A Unified Pipeline for Document Text Restoration
Title（参考訳）: DocRevive: 文書テキスト復元のための統一パイプライン
Authors: Kunal Purkayastha, Ayan Banerjee, Josep Llados, Umapada Pal,
Abstract要約: 本稿では,最先端の光学文字認識(OCR)と高度な画像解析を組み合わせた,新しい統合パイプラインを提案する。各種文書劣化シナリオをシミュレートする,30,078個の文書画像の合成データセットを作成する。拡散ベースのモジュールはテキスト、フォント、サイズ、アライメントをシームレスに再統合する。
参考スコア（独自算出の注目度）: 8.164723249655319
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In Document Understanding, the challenge of reconstructing damaged, occluded, or incomplete text remains a critical yet unexplored problem. Subsequent document understanding tasks can benefit from a document reconstruction process. In response, this paper presents a novel unified pipeline combining state-of-the-art Optical Character Recognition (OCR), advanced image analysis, masked language modeling, and diffusion-based models to restore and reconstruct text while preserving visual integrity. We create a synthetic dataset of 30{,}078 degraded document images that simulates diverse document degradation scenarios, setting a benchmark for restoration tasks. Our pipeline detects and recognizes text, identifies degradation with an occlusion detector, and uses an inpainting model for semantically coherent reconstruction. A diffusion-based module seamlessly reintegrates text, matching font, size, and alignment. To evaluate restoration quality, we propose a Unified Context Similarity Metric (UCSM), incorporating edit, semantic, and length similarities with a contextual predictability measure that penalizes deviations when the correct text is contextually obvious. Our work advances document restoration, benefiting archival research and digital preservation while setting a new standard for text reconstruction. The OPRB dataset and code are available at \href{https://huggingface.co/datasets/kpurkayastha/OPRB}{Hugging Face} and \href{https://github.com/kunalpurkayastha/DocRevive}{Github} respectively.
Abstract（参考訳）: 文書理解(Document Understanding)では、破損した、隠された、あるいは不完全なテキストを再構築するという課題は、批判的だが未解決の問題のままである。その後の文書理解タスクは、文書再構築プロセスの恩恵を受けることができる。そこで本研究では,最先端の光学的文字認識(OCR),高度な画像解析,マスク言語モデリング,拡散モデルを組み合わせることで,視覚的整合性を保ちながらテキストの復元と再構築を行う。各種文書劣化シナリオをシミュレートし,復元作業のベンチマークを設定する,30{,}078の文書画像の合成データセットを作成する。我々のパイプラインはテキストを検出して認識し、閉塞検知器による劣化を識別し、意味的コヒーレントな再構築に塗装モデルを用いている。拡散ベースのモジュールはテキスト、フォント、サイズ、アライメントをシームレスに再統合する。修復品質を評価するために,編集,意味,長さの類似性を考慮した統一コンテキスト類似度尺度(UCSM)を提案する。本研究は文書復元を推進し,新たなテキスト復元基準を設定しつつ,アーカイブ研究とデジタル保存に寄与する。 OPRBデータセットとコードは、それぞれ \href{https://huggingface.co/datasets/kpurkayastha/OPRB}{Hugging Face} と \href{https://github.com/kunalpurkayastha/DocRevive}{Github} で利用可能である。

関連論文リスト

Multimodal OCR: Parse Anything from Documents [72.69545534962234]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文参考訳（メタデータ） (2026-03-13T14:42:21Z)
DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文参考訳（メタデータ） (2025-07-08T09:24:07Z)
Text-Aware Image Restoration with Diffusion Models [30.127247716169666]
Text-Aware Image Restoration (TAIR) は、視覚的内容とテキストの忠実性の同時回復を必要とする新しい復元作業である。この課題に対処するために,多種多様な複雑なテキストインスタンスを付加した100Kの高品質シーン画像の大規模ベンチマークであるSA-Textを提案する。本手法は最先端の復元手法を一貫して上回り,テキスト認識精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-06-11T17:59:46Z)
PreP-OCR: A Complete Pipeline for Document Image Restoration and Enhanced OCR Accuracy [14.50674472785442]
PreP-OCRは、文書イメージの復元と意味認識後OCR修正を組み合わせた2段階のパイプラインである。原画像上のOCRと比較して,PreP-OCRは文字誤り率を63.9-70.3%削減する。
論文参考訳（メタデータ） (2025-05-26T18:25:28Z)
Geometry Restoration and Dewarping of Camera-Captured Document Images [0.0]
本研究では,カメラが捉えた紙文書のデジタル画像のトポロジを復元する手法の開発に焦点をあてる。本手法では,文書アウトライン検出に深層学習(DL)を用い,次いでコンピュータビジョン(CV)を用いてトポロジカル2Dグリッドを作成する。
論文参考訳（メタデータ） (2025-01-06T17:12:19Z)
SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文参考訳（メタデータ） (2023-12-18T17:02:30Z)
Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文参考訳（メタデータ） (2023-04-18T08:00:54Z)
Self-supervised Deep Reconstruction of Mixed Strip-shredded Text Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文参考訳（メタデータ） (2020-07-01T21:48:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。