論文の概要: DocScanner: Robust Document Image Rectification with Progressive
Learning
- arxiv url: http://arxiv.org/abs/2110.14968v1
- Date: Thu, 28 Oct 2021 09:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 15:26:56.688884
- Title: DocScanner: Robust Document Image Rectification with Progressive
Learning
- Title(参考訳): docscanner: プログレッシブラーニングによる堅牢な文書画像修正
- Authors: Hao Feng, Wengang Zhou, Jiajun Deng, Qi Tian, Houqiang Li
- Abstract要約: この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
- 参考スコア(独自算出の注目度): 162.03694280524084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to flatbed scanners, portable smartphones are much more convenient
for physical documents digitizing. However, such digitized documents are often
distorted due to uncontrolled physical deformations, camera positions, and
illumination variations. To this end, this work presents DocScanner, a new deep
network architecture for document image rectification. Different from existing
methods, DocScanner addresses this issue by introducing a progressive learning
mechanism. Specifically, DocScanner maintains a single estimate of the
rectified image, which is progressively corrected with a recurrent
architecture. The iterative refinements make DocScanner converge to a robust
and superior performance, and the lightweight recurrent architecture ensures
the running efficiency. In addition, before the above rectification process,
observing the corrupted rectified boundaries existing in prior works,
DocScanner exploits a document localization module to explicitly segment the
foreground document from the cluttered background environments. To further
improve the rectification quality, based on the geometric priori between the
distorted and the rectified images, a geometric regularization is introduced
during training to further facilitate the performance. Extensive experiments
are conducted on the Doc3D dataset and the DocUNet benchmark dataset, and the
quantitative and qualitative evaluation results verify the effectiveness of
DocScanner, which outperforms previous methods on OCR accuracy, image
similarity, and our proposed distortion metric by a considerable margin.
Furthermore, our DocScanner shows the highest efficiency in inference time and
parameter count.
- Abstract(参考訳): フラットベッドスキャナーと比べて、スマートフォンは物理的文書のデジタル化にずっと便利だ。
しかし、そのようなデジタル化された文書は、制御不能な物理的変形、カメラの位置、照明の変化によって歪められることが多い。
この目的のために、ドキュメントイメージの修正のための新しいディープネットワークアーキテクチャであるDocScannerを提示する。
既存の方法とは異なり、DocScannerはプログレッシブラーニングメカニズムを導入することでこの問題に対処する。
具体的には、docscannerは再帰的なアーキテクチャで徐々に修正される修正画像の単一の推定を維持する。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
さらに、上記の修正プロセスの前に、以前の作業に存在する破損した修正境界を観察し、DocScannerは文書のローカライゼーションモジュールを利用して、散らかった背景環境からフォアグラウンドドキュメントを明示的に分割する。
歪み画像と補正画像との幾何学的優先順位に基づいて、さらに整流品質を向上させるため、トレーニング中に幾何正則化を導入し、さらにパフォーマンスが向上する。
Doc3DデータセットとDocUNetベンチマークデータセットを用いて大規模な実験を行い,OCRの精度,画像類似性,提案した歪み測定値の精度をかなり向上させるDocScannerの有効性を定量的および定性評価により検証した。
さらに,docscannerは推論時間とパラメータ数において最高の効率を示す。
関連論文リスト
- DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - DocTr: Document Image Transformer for Geometric Unwarping and
Illumination Correction [99.09177377916369]
文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。
DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
論文 参考訳(メタデータ) (2021-10-25T13:27:10Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。