論文の概要: DocTr: Document Image Transformer for Geometric Unwarping and
Illumination Correction
- arxiv url: http://arxiv.org/abs/2110.12942v1
- Date: Mon, 25 Oct 2021 13:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:38:58.735317
- Title: DocTr: Document Image Transformer for Geometric Unwarping and
Illumination Correction
- Title(参考訳): doctr: 幾何学的乱れと照明補正のための文書画像トランスフォーマー
- Authors: Hao Feng, Yuechen Wang, Wengang Zhou, Jiajun Deng, Houqiang Li
- Abstract要約: 文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。
DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
- 参考スコア(独自算出の注目度): 99.09177377916369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a new framework, called Document Image Transformer
(DocTr), to address the issue of geometry and illumination distortion of the
document images. Specifically, DocTr consists of a geometric unwarping
transformer and an illumination correction transformer. By setting a set of
learned query embedding, the geometric unwarping transformer captures the
global context of the document image by self-attention mechanism and decodes
the pixel-wise displacement solution to correct the geometric distortion. After
geometric unwarping, our illumination correction transformer further removes
the shading artifacts to improve the visual quality and OCR accuracy. Extensive
evaluations are conducted on several datasets, and superior results are
reported against the state-of-the-art methods. Remarkably, our DocTr achieves
20.02% Character Error Rate (CER), a 15% absolute improvement over the
state-of-the-art methods. Moreover, it also shows high efficiency on running
time and parameter count. The results will be available at
https://github.com/fh2019ustc/DocTr for further comparison.
- Abstract(参考訳): 本研究では,文書画像の幾何学的問題と照明歪みに対処するため,DocTr(Document Image Transformer)と呼ばれる新しいフレームワークを提案する。
具体的には、DocTrは幾何学的アンワーピング変圧器と照明補正変圧器からなる。
学習したクエリの埋め込みセットを設定することにより、幾何学的アンウォーピング変換器は、文書画像のグローバルコンテキストを自己アテンション機構によりキャプチャし、画素単位の変位解をデコードして幾何学的歪みを補正する。
幾何学的アンワープの後、照明補正変圧器はシェーディングアーティファクトをさらに除去し、視覚的品質とOCR精度を向上させる。
いくつかのデータセットで広範な評価を行い、最先端の手法に対して優れた結果が報告されている。
私たちのDocTrは20.02%のキャラクタエラー率(CER)を実現しています。
さらに、実行時間とパラメータ数において高い効率を示す。
結果はhttps://github.com/fh2019ustc/doctrで確認できる。
関連論文リスト
- Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - Document Dewarping with Control Points [36.32190493389662]
制御点と参照点を推定することで歪んだ文書画像の修正をシンプルかつ効果的に行う手法を提案する。
制御ポイントは、相互作用やその後の調整を容易にするために制御可能である。
実験により,本手法は様々な歪み型で文書画像の修正が可能であり,実世界のデータセット上での最先端の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-03-20T12:51:14Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network [30.18238229156996]
完全畳み込みネットワーク(FCN)を用いて歪んだ文書イメージを補正し、背景を細かく除去する枠組みを提案する。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-04-14T12:32:36Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z) - Multistage Curvilinear Coordinate Transform Based Document Image
Dewarping using a Novel Quality Estimator [11.342730352935913]
本研究は,非線形に歪んだ文書画像のデウォープを高速化し,改良した手法を示す。
画像は、カービ線形ホモグラフィーを用いて最適逆投影を推定することにより、まずページレベルでデワープされる。
プロセスの品質は、テキスト行とリチリニアオブジェクトの特性に関連する一連のメトリクスを評価することによって推定される。
品質が不満足であると推定された場合、ページレベルのデウォーププロセスはより微細な近似で繰り返される。
これに続いて行レベルのデワープ処理が行われ、個々のテキスト行でワープを細かく修正する。
論文 参考訳(メタデータ) (2020-03-15T17:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。