論文の概要: Deep Unrestricted Document Image Rectification
- arxiv url: http://arxiv.org/abs/2304.08796v1
- Date: Tue, 18 Apr 2023 08:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:45:34.731597
- Title: Deep Unrestricted Document Image Rectification
- Title(参考訳): 深部非制限文書画像整形
- Authors: Hao Feng, Shaokai Liu, Jiajun Deng, Wengang Zhou, Houqiang Li
- Abstract要約: 文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
- 参考スコア(独自算出の注目度): 134.1770912019458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, tremendous efforts have been made on document image
rectification, but existing advanced algorithms are limited to processing
restricted document images, i.e., the input images must incorporate a complete
document. Once the captured image merely involves a local text region, its
rectification quality is degraded and unsatisfactory. Our previously proposed
DocTr, a transformer-assisted network for document image rectification, also
suffers from this limitation. In this work, we present DocTr++, a novel unified
framework for document image rectification, without any restrictions on the
input distorted images. Our major technical improvements can be concluded in
three aspects. Firstly, we upgrade the original architecture by adopting a
hierarchical encoder-decoder structure for multi-scale representation
extraction and parsing. Secondly, we reformulate the pixel-wise mapping
relationship between the unrestricted distorted document images and the
distortion-free counterparts. The obtained data is used to train our DocTr++
for unrestricted document image rectification. Thirdly, we contribute a
real-world test set and metrics applicable for evaluating the rectification
quality. To our best knowledge, this is the first learning-based method for the
rectification of unrestricted document images. Extensive experiments are
conducted, and the results demonstrate the effectiveness and superiority of our
method. We hope our DocTr++ will serve as a strong baseline for generic
document image rectification, prompting the further advancement and application
of learning-based algorithms. The source code and the proposed dataset are
publicly available at https://github.com/fh2019ustc/DocTr-Plus.
- Abstract(参考訳): 近年、文書画像の修正に多大な努力が払われているが、既存の高度なアルゴリズムは制限された文書画像の処理に限られており、入力画像は完全な文書を組み込まなければならない。
キャプチャされた画像が単にローカルテキスト領域を含むと、その補正品質は劣化し不満足になる。
以前提案したDocTrは、文書画像修正のためのトランスフォーマー支援ネットワークであり、この制限に悩まされている。
本稿では,入力された歪み画像の制約を伴わずに,文書画像修正のための新しい統一フレームワークであるdoctr++を提案する。
私たちの主要な技術的改善は3つの側面でまとめられます。
まず,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
次に,歪みのない文書画像と歪みのない文書画像との画素間マッピング関係を再構成する。
得られたデータはDocTr++をトレーニングするために使われます。
第3に,実世界のテストセットと,修正品質評価に適用可能なメトリクスをコントリビュートする。
我々の知る限り、これは制約なしの文書画像の修正のための学習に基づく最初の方法である。
大規模な実験を行い,本手法の有効性と優位性を実証した。
DocTr++が汎用的なドキュメントイメージの修正の強力なベースラインとして機能し、学習ベースのアルゴリズムのさらなる進歩と適用を促進することを願っています。
ソースコードと提案されたデータセットはhttps://github.com/fh2019ustc/DocTr-Plusで公開されている。
関連論文リスト
- A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - DocEnTr: An End-to-End Document Image Enhancement Transformer [13.108797370734893]
文書画像は多くの劣化シナリオに影響され、認識と処理が困難になる。
本稿では,視覚変換器をベースとしたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-01-25T11:45:35Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - DocTr: Document Image Transformer for Geometric Unwarping and
Illumination Correction [99.09177377916369]
文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。
DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
論文 参考訳(メタデータ) (2021-10-25T13:27:10Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。