論文の概要: Multistage Curvilinear Coordinate Transform Based Document Image
Dewarping using a Novel Quality Estimator
- arxiv url: http://arxiv.org/abs/2003.06872v1
- Date: Sun, 15 Mar 2020 17:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 09:05:37.209116
- Title: Multistage Curvilinear Coordinate Transform Based Document Image
Dewarping using a Novel Quality Estimator
- Title(参考訳): 新しい品質推定器を用いた多段曲線座標変換に基づく文書画像デワープ
- Authors: Tanmoy Dasgupta and Nibaran Das and Mita Nasipuri
- Abstract要約: 本研究は,非線形に歪んだ文書画像のデウォープを高速化し,改良した手法を示す。
画像は、カービ線形ホモグラフィーを用いて最適逆投影を推定することにより、まずページレベルでデワープされる。
プロセスの品質は、テキスト行とリチリニアオブジェクトの特性に関連する一連のメトリクスを評価することによって推定される。
品質が不満足であると推定された場合、ページレベルのデウォーププロセスはより微細な近似で繰り返される。
これに続いて行レベルのデワープ処理が行われ、個々のテキスト行でワープを細かく修正する。
- 参考スコア(独自算出の注目度): 11.342730352935913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The present work demonstrates a fast and improved technique for dewarping
nonlinearly warped document images. The images are first dewarped at the
page-level by estimating optimum inverse projections using curvilinear
homography. The quality of the process is then estimated by evaluating a set of
metrics related to the characteristics of the text lines and rectilinear
objects for measuring parallelism, orthogonality, etc. These are designed
specifically to estimate the quality of the dewarping process without the need
of any ground truth. If the quality is estimated to be unsatisfactory, the
page-level dewarping process is repeated with finer approximations. This is
followed by a line-level dewarping process that makes granular corrections to
the warps in individual text-lines. The methodology has been tested on the
CBDAR 2007 / IUPR 2011 document image dewarping dataset and is seen to yield
the best OCR accuracy in the shortest amount of time, till date. The usefulness
of the methodology has also been evaluated on the DocUNet 2018 dataset with
some minor tweaks, and is seen to produce comparable results.
- Abstract(参考訳): 本研究は、非線形に歪んだ文書画像のデウォープを高速かつ改良した手法を示す。
画像は、曲線ホモグラフィを用いて最適な逆射影を推定することにより、まずページレベルで変形する。
次に、並列性、直交性などを測定するために、テキスト行と直線オブジェクトの特性に関する一連のメトリクスを評価することにより、プロセスの質を推定する。
これらは特に、根底的な真実を必要とせずに、デウォーププロセスの品質を推定するために設計されている。
品質が満足できないと推定された場合、ページレベルの復号処理をより細かい近似で繰り返す。
これに続いて行レベルのデワープ処理が行われ、個々のテキスト行でワープを細かく修正する。
この手法はCBDAR 2007 / IUPR 2011の文書画像デウォープデータセットでテストされており、これまでで最も短い時間で最高のOCR精度が得られる。
この方法論の有用性は、DocUNet 2018データセットでもいくつかの微調整で評価されており、同等の結果が得られている。
関連論文リスト
- C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion [54.81141583427542]
深層学習において,ラベル付きデータを必要としない微調整手法としてテスト時間適応が注目されている。
本稿では,CLIPの固有特性を利用したテスト時プロンプトチューニング時の校正について検討する。
そこで本研究では,C-TPT(Calibrated Test-time Prompt Tuning)という,キャリブレーションの強化によるテスト時間中のプロンプトの最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T04:08:29Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Revisiting Document Image Dewarping by Grid Regularization [41.87305384805975]
本稿では,文書画像のデウォープの問題に対処する。
制約のある最適化の観点から、テキスト行とドキュメント境界を考慮に入れます。
提案手法は,テキスト行の境界点と画素をまず学習する。
論文 参考訳(メタデータ) (2022-03-31T07:18:30Z) - Fast Hybrid Image Retargeting [0.0]
本稿では,コンテント・アウェア・トリミングを用いて歪みを定量化し,抑制する手法を提案する。
我々の手法は,実行時間のごく一部で実行しながら,最近の手法より優れています。
論文 参考訳(メタデータ) (2022-03-25T11:46:06Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - DocTr: Document Image Transformer for Geometric Unwarping and
Illumination Correction [99.09177377916369]
文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。
DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
論文 参考訳(メタデータ) (2021-10-25T13:27:10Z) - Automatic Extrinsic Calibration Method for LiDAR and Camera Sensor
Setups [68.8204255655161]
本論文では,LiDAR,単眼,ステレオカメラを含む任意のセンサのパラメータを校正する手法を提案する。
提案手法は、通常、車両のセットアップで見られるように、非常に異なる解像度とポーズのデバイスを扱うことができる。
論文 参考訳(メタデータ) (2021-01-12T12:02:26Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - Subjective Annotation for a Frame Interpolation Benchmark using Artefact
Amplification [6.544757635738911]
画像品質評価では、ユーザが経験した実際の品質を、簡単な測定値から完全に推定することはできない。
我々は,光学フローベンチマークの1つによって提供される補間フレームに対する主観的品質評価群集調査を行った。
まず,WAE-IQAと呼ばれる新しい完全参照手法を提案する。
論文 参考訳(メタデータ) (2020-01-10T18:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。