論文の概要: Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network
- arxiv url: http://arxiv.org/abs/2104.06815v1
- Date: Wed, 14 Apr 2021 12:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:15:14.558695
- Title: Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network
- Title(参考訳): 完全畳み込みネットワークを用いた変位流推定による文書画像の変形
- Authors: Guo-Wang Xie, Fei Yin, Xu-Yao Zhang, and Cheng-Lin Liu
- Abstract要約: 完全畳み込みネットワーク(FCN)を用いて歪んだ文書イメージを補正し、背景を細かく除去する枠組みを提案する。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
- 参考スコア(独自算出の注目度): 30.18238229156996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As camera-based documents are increasingly used, the rectification of
distorted document images becomes a need to improve the recognition
performance. In this paper, we propose a novel framework for both rectifying
distorted document image and removing background finely, by estimating
pixel-wise displacements using a fully convolutional network (FCN). The
document image is rectified by transformation according to the displacements of
pixels. The FCN is trained by regressing displacements of synthesized distorted
documents, and to control the smoothness of displacements, we propose a Local
Smooth Constraint (LSC) in regularization. Our approach is easy to implement
and consumes moderate computing resource. Experiments proved that our approach
can dewarp document images effectively under various geometric distortions, and
has achieved the state-of-the-art performance in terms of local details and
overall effect.
- Abstract(参考訳): カメラベースの文書が普及するにつれて、歪んだ文書画像の修正が認識性能の向上に必要となる。
本稿では,完全畳み込みネットワーク(fcn)を用いて画素単位の変位を推定し,歪文書画像の修正と背景除去の両方を行う新しい枠組みを提案する。
文書画像は画素の変位に応じて変換により補正される。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
私たちのアプローチは実装が容易で、適度なコンピューティングリソースを消費します。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
関連論文リスト
- Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Document Dewarping with Control Points [36.32190493389662]
制御点と参照点を推定することで歪んだ文書画像の修正をシンプルかつ効果的に行う手法を提案する。
制御ポイントは、相互作用やその後の調整を容易にするために制御可能である。
実験により,本手法は様々な歪み型で文書画像の修正が可能であり,実世界のデータセット上での最先端の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-03-20T12:51:14Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - DocTr: Document Image Transformer for Geometric Unwarping and
Illumination Correction [99.09177377916369]
文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。
DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
論文 参考訳(メタデータ) (2021-10-25T13:27:10Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。