論文の概要: Fourier Document Restoration for Robust Document Dewarping and
Recognition
- arxiv url: http://arxiv.org/abs/2203.09910v1
- Date: Fri, 18 Mar 2022 12:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 19:48:14.830840
- Title: Fourier Document Restoration for Robust Document Dewarping and
Recognition
- Title(参考訳): ロバスト文書復号と認識のためのフーリエ文書復元
- Authors: Chuhui Xue, Zichen Tian, Fangneng Zhan, Shijian Lu, Song Bai
- Abstract要約: 本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
- 参考スコア(独自算出の注目度): 73.44057202891011
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: State-of-the-art document dewarping techniques learn to predict 3-dimensional
information of documents which are prone to errors while dealing with documents
with irregular distortions or large variations in depth. This paper presents
FDRNet, a Fourier Document Restoration Network that can restore documents with
different distortions and improve document recognition in a reliable and
simpler manner. FDRNet focuses on high-frequency components in the Fourier
space that capture most structural information but are largely free of
degradation in appearance. It dewarps documents by a flexible Thin-Plate Spline
transformation which can handle various deformations effectively without
requiring deformation annotations in training. These features allow FDRNet to
learn from a small amount of simply labeled training images, and the learned
model can dewarp documents with complex geometric distortion and recognize the
restored texts accurately. To facilitate document restoration research, we
create a benchmark dataset consisting of over one thousand camera documents
with different types of geometric and photometric distortion. Extensive
experiments show that FDRNet outperforms the state-of-the-art by large margins
on both dewarping and text recognition tasks. In addition, FDRNet requires a
small amount of simply labeled training data and is easy to deploy.
- Abstract(参考訳): 最先端の文書変形技術は、不規則な歪みや奥行きのばらつきのある文書を扱う際にエラーを起こしやすい文書の3次元情報を予測することを学ぶ。
本稿では,異なる歪みを持つ文書を復元し,信頼性と簡便な方法で文書認識を改善する,フーリエ文書復元ネットワークであるfdrnetを提案する。
fdrnet はフーリエ空間の高周波成分に焦点をあて、ほとんどの構造情報をキャプチャするが、外観の劣化はほとんどない。
柔軟性のある薄板スプライン変換によって文書を変形させ、トレーニングで変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これらの特徴により、FDRNetは少量のラベル付きトレーニング画像から学習することができ、学習されたモデルは複雑な幾何学的歪みで文書をデワープし、復元されたテキストを正確に認識することができる。
文書復元研究を容易にするために,幾何および光度歪みの異なる1万以上のカメラ文書からなるベンチマークデータセットを作成する。
大規模な実験により、FDRNetはデワープタスクとテキスト認識タスクの両方で最先端の技術をはるかに上回っていることがわかった。
加えて、FDRNetは少量の単にラベル付けされたトレーニングデータを必要とし、デプロイが容易である。
関連論文リスト
- DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Geometric Rectification of Creased Document Images based on Isometric
Mapping [0.0]
歪んだ文書の画像の幾何学的補正は、文書のデジタル化と光学文字認識(OCR)における幅広い応用を見出す
本稿では,3次元文書モデルと平面における平滑化を表現するために,計算等尺写像モデルを用いた文書画像補正の一般的な枠組みを提案する。
提案手法の有効性と性能を実証し,本手法との比較を行った。
論文 参考訳(メタデータ) (2022-12-16T09:33:31Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network [30.18238229156996]
完全畳み込みネットワーク(FCN)を用いて歪んだ文書イメージを補正し、背景を細かく除去する枠組みを提案する。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-04-14T12:32:36Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。