論文の概要: TADoc: Robust Time-Aware Document Image Dewarping
- arxiv url: http://arxiv.org/abs/2508.06988v1
- Date: Sat, 09 Aug 2025 13:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.642876
- Title: TADoc: Robust Time-Aware Document Image Dewarping
- Title(参考訳): TADoc: タイムアウェアなドキュメントイメージのデワープ
- Authors: Fangmin Zhao, Weichao Zeng, Zhenhang Li, Dongbao Yang, Yu Zhou,
- Abstract要約: デジタルエコノミーとオンラインワークの台頭により、文書画像のデウォープがますます重要になっている。
我々はこのタスクを再構築し、一連の中間状態を含む動的なプロセスとして初めてモデル化する。
文書画像の幾何学的歪みに対処するために,TADocと呼ばれる軽量なフレームワークを設計する。
- 参考スコア(独自算出の注目度): 4.080803969466669
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Flattening curved, wrinkled, and rotated document images captured by portable photographing devices, termed document image dewarping, has become an increasingly important task with the rise of digital economy and online working. Although many methods have been proposed recently, they often struggle to achieve satisfactory results when confronted with intricate document structures and higher degrees of deformation in real-world scenarios. Our main insight is that, unlike other document restoration tasks (e.g., deblurring), dewarping in real physical scenes is a progressive motion rather than a one-step transformation. Based on this, we have undertaken two key initiatives. Firstly, we reformulate this task, modeling it for the first time as a dynamic process that encompasses a series of intermediate states. Secondly, we design a lightweight framework called TADoc (Time-Aware Document Dewarping Network) to address the geometric distortion of document images. In addition, due to the inadequacy of OCR metrics for document images containing sparse text, the comprehensiveness of evaluation is insufficient. To address this shortcoming, we propose a new metric -- DLS (Document Layout Similarity) -- to evaluate the effectiveness of document dewarping in downstream tasks. Extensive experiments and in-depth evaluations have been conducted and the results indicate that our model possesses strong robustness, achieving superiority on several benchmarks with different document types and degrees of distortion.
- Abstract(参考訳): デジタル経済の興隆とオンラインワークの興隆により,携帯型撮影装置が捉えたフラットなカーブ,しわ,回転した文書画像,いわゆる文書画像のデワープがますます重要な課題となっている。
近年では多くの手法が提案されているが、複雑な文書構造と現実のシナリオにおける高い変形に直面すると、満足な結果を得るのに苦慮することが多い。
私たちの主な洞察は、他のドキュメント復元作業(例えば、デブロアリング)とは異なり、実際の物理的シーンでのデウォープは、1ステップの変換というよりは進歩的な動きであるということです。
これに基づいて、私たちは2つの重要なイニシアティブを実施しました。
まず、このタスクを、一連の中間状態を含む動的プロセスとして初めてモデル化する。
次に,文書画像の幾何学的歪みに対処するため,TADoc(Time-Aware Document Dewarping Network)と呼ばれる軽量なフレームワークを設計する。
また、スパーステキストを含む文書画像のOCR尺度が不十分であるため、総合的な評価は不十分である。
この欠点に対処するため、下流タスクにおける文書のデウォープの有効性を評価するため、新しい指標であるDLS(Document Layout similarity)を提案する。
その結果,本モデルが強靭性を有し,文書の種類や歪みの程度が異なる複数のベンチマークにおいて優れた結果が得られた。
関連論文リスト
- DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model [25.504170988714783]
ドキュメンテーションデワープは、写真文書画像の変形を補正することを目的としており、テキストの可読性を向上させる。
我々はtextbfDiffusion フレームワークを用いて textbfDewarping textbf に取り組むための最初の生成モデル DvD を提案する。
論文 参考訳(メタデータ) (2025-05-28T05:05:51Z) - Geometry Restoration and Dewarping of Camera-Captured Document Images [0.0]
本研究では,カメラが捉えた紙文書のデジタル画像のトポロジを復元する手法の開発に焦点をあてる。
本手法では,文書アウトライン検出に深層学習(DL)を用い,次いでコンピュータビジョン(CV)を用いてトポロジカル2Dグリッドを作成する。
論文 参考訳(メタデータ) (2025-01-06T17:12:19Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - EraseNet: A Recurrent Residual Network for Supervised Document Cleaning [0.0]
本稿では, 完全畳み込み型自動エンコーダアーキテクチャを用いて, 汚れた文書のクリーニングを指導する手法を提案する。
本実験では, モデルが各種の常用音や異常音を学習し, 効率よく修正できるので, 有望な結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T04:23:25Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。