論文の概要: Document Dewarping with Control Points
- arxiv url: http://arxiv.org/abs/2203.10543v1
- Date: Sun, 20 Mar 2022 12:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:49:38.747530
- Title: Document Dewarping with Control Points
- Title(参考訳): 制御点を有する文書の変形
- Authors: Guo-Wang Xie, Fei Yin, Xu-Yao Zhang, and Cheng-Lin Liu
- Abstract要約: 制御点と参照点を推定することで歪んだ文書画像の修正をシンプルかつ効果的に行う手法を提案する。
制御ポイントは、相互作用やその後の調整を容易にするために制御可能である。
実験により,本手法は様々な歪み型で文書画像の修正が可能であり,実世界のデータセット上での最先端の性能が得られることが示された。
- 参考スコア(独自算出の注目度): 36.32190493389662
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document images are now widely captured by handheld devices such as mobile
phones. The OCR performance on these images are largely affected due to
geometric distortion of the document paper, diverse camera positions and
complex backgrounds. In this paper, we propose a simple yet effective approach
to rectify distorted document image by estimating control points and reference
points. After that, we use interpolation method between control points and
reference points to convert sparse mappings to backward mapping, and remap the
original distorted document image to the rectified image. Furthermore, control
points are controllable to facilitate interaction or subsequent adjustment. We
can flexibly select post-processing methods and the number of vertices
according to different application scenarios. Experiments show that our
approach can rectify document images with various distortion types, and yield
state-of-the-art performance on real-world dataset. This paper also provides a
training dataset based on control points for document dewarping. Both the code
and the dataset are released at
https://github.com/gwxie/Document-Dewarping-with-Control-Points.
- Abstract(参考訳): 現在、文書画像は携帯電話などの携帯端末で広く撮影されている。
これらの画像のocr性能は、文書紙の幾何学的歪み、多様なカメラ位置、複雑な背景の影響が大きい。
本稿では,制御点と基準点を推定し,歪んだ文書画像を補正する簡易かつ効果的な手法を提案する。
その後、制御点と基準点間の補間法を用いてスパースマッピングを後方マッピングに変換し、元の歪んだ文書画像を補正画像に再マップする。
さらに、制御ポイントは、相互作用やその後の調整を容易にするために制御可能である。
異なるアプリケーションシナリオに応じて、後処理メソッドと頂点の数を柔軟に選択できる。
実験により,本手法は様々な歪み型を持つ文書画像の修正が可能であり,実世界のデータセットにおける最先端の性能が得られることを示した。
本稿では,文書変形の制御点に基づく学習データセットも提供する。
コードとデータセットは、https://github.com/gwxie/Document-Dewarping-with-Control-Pointsでリリースされる。
関連論文リスト
- DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - DocTr: Document Image Transformer for Geometric Unwarping and
Illumination Correction [99.09177377916369]
文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。
DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
論文 参考訳(メタデータ) (2021-10-25T13:27:10Z) - Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network [30.18238229156996]
完全畳み込みネットワーク(FCN)を用いて歪んだ文書イメージを補正し、背景を細かく除去する枠組みを提案する。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-04-14T12:32:36Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。