論文の概要: Can You Read Me Now? Content Aware Rectification using Angle Supervision
- arxiv url: http://arxiv.org/abs/2008.02231v1
- Date: Wed, 5 Aug 2020 16:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 18:31:19.132661
- Title: Can You Read Me Now? Content Aware Rectification using Angle Supervision
- Title(参考訳): 今 読んでもらえますか?
角度制御を用いたコンテンツ認識整流
- Authors: Amir Markovitz, Inbal Lavi, Or Perel, Shai Mazor and Roee Litman
- Abstract要約: 本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
- 参考スコア(独自算出の注目度): 14.095728009592763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ubiquity of smartphone cameras has led to more and more documents being
captured by cameras rather than scanned. Unlike flatbed scanners, photographed
documents are often folded and crumpled, resulting in large local variance in
text structure. The problem of document rectification is fundamental to the
Optical Character Recognition (OCR) process on documents, and its ability to
overcome geometric distortions significantly affects recognition accuracy.
Despite the great progress in recent OCR systems, most still rely on a
pre-process that ensures the text lines are straight and axis aligned. Recent
works have tackled the problem of rectifying document images taken in-the-wild
using various supervision signals and alignment means. However, they focused on
global features that can be extracted from the document's boundaries, ignoring
various signals that could be obtained from the document's content.
We present CREASE: Content Aware Rectification using Angle Supervision, the
first learned method for document rectification that relies on the document's
content, the location of the words and specifically their orientation, as hints
to assist in the rectification process. We utilize a novel pixel-wise angle
regression approach and a curvature estimation side-task for optimizing our
rectification model. Our method surpasses previous approaches in terms of OCR
accuracy, geometric error and visual similarity.
- Abstract(参考訳): スマートフォンのカメラのユビキタス化によって、スキャンされるよりもカメラによって撮影される文書がますます増えている。
フラットベッドスキャナと異なり、撮影された文書は折りたたまれることが多く、テキスト構造に大きな局所的なばらつきが生じる。
文書修正の問題は文書の光文字認識(ocr)プロセスの基本であり、幾何学的歪みを克服する能力は認識精度に大きく影響する。
最近のOCRシステムでは大きな進歩があったが、ほとんどの場合、テキスト行が直線かつ軸に沿っていることを保証する事前処理に依存している。
近年,様々な監視信号とアライメント手段を用いて,現場で撮影された文書画像の修正に取り組んできた。
しかし、彼らは文書の境界から抽出できるグローバルな特徴に注目し、文書の内容から得られる様々な信号を無視した。
本稿では, 文書の内容, 単語の位置, 特にその方向に依存する文書修正を, 修正プロセスを支援するヒントとして初めて学習した方法である, アングル・スーパービジョンを用いたコンテンツアウェア・レクティフィケーションを提案する。
我々は,新しい画素方向回帰法と曲率推定サイドタスクを用いて整流モデルを最適化する。
本手法は, ocr精度, 幾何学的誤差, 視覚的類似性の観点から, 従来のアプローチを上回っている。
関連論文リスト
- DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - UDoc-GAN: Unpaired Document Illumination Correction with Background
Light Prior [128.19212716007794]
UDoc-GANは、未確認条件下での文書照明補正の問題に対処する最初のフレームワークである。
文書の環境光の特徴をまず予測する。
そして、周囲光のレベルが異なる特性により、サイクルの一貫性の制約を再定式化する。
現状の手法と比較して,文字誤り率 (CER) と編集距離 (ED) の両面で有望な性能を示す。
論文 参考訳(メタデータ) (2022-10-15T07:19:23Z) - Document Dewarping with Control Points [36.32190493389662]
制御点と参照点を推定することで歪んだ文書画像の修正をシンプルかつ効果的に行う手法を提案する。
制御ポイントは、相互作用やその後の調整を容易にするために制御可能である。
実験により,本手法は様々な歪み型で文書画像の修正が可能であり,実世界のデータセット上での最先端の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-03-20T12:51:14Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - DocTr: Document Image Transformer for Geometric Unwarping and
Illumination Correction [99.09177377916369]
文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。
DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
論文 参考訳(メタデータ) (2021-10-25T13:27:10Z) - Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network [30.18238229156996]
完全畳み込みネットワーク(FCN)を用いて歪んだ文書イメージを補正し、背景を細かく除去する枠組みを提案する。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-04-14T12:32:36Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。