論文の概要: A Survey on Deep learning based Document Image Enhancement
- arxiv url: http://arxiv.org/abs/2112.02719v1
- Date: Mon, 6 Dec 2021 00:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 14:59:46.788190
- Title: A Survey on Deep learning based Document Image Enhancement
- Title(参考訳): 深層学習に基づく文書画像強調に関する調査研究
- Authors: Zahra Anvari, Vassilis Athitsos
- Abstract要約: 現在では、科学論文、税形式、請求書、契約書、歴史文書などのデジタル化された文書が広く使われている。
これらの画像は、撮影時の照明条件の悪さ、スキャン中の影、ノイズやぼやけなどの歪み、老朽化、インクの汚れ、通気、透かし、切手など、様々な理由で劣化または損傷する可能性がある。
近年のディープラーニングの進歩により,これらの文書画像の品質向上のために,多くの手法が提案されている。
- 参考スコア(独自算出の注目度): 5.279475826661643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digitized documents such as scientific articles, tax forms, invoices,
contract papers, and historic texts, are widely used nowadays. These images
could be degraded or damaged due to various reasons including poor lighting
conditions when capturing the image, shadow while scanning them, distortion
like noise and blur, aging, ink stain, bleed through, watermark, stamp, etc.
Document image enhancement and restoration play a crucial role in many
automated document analysis and recognition tasks, such as content extraction
using optical character recognition (OCR). With recent advances in deep
learning, many methods are proposed to enhance the quality of these document
images. In this paper, we review deep learning-based methods, datasets, and
metrics for different document image enhancement problems. We provide a
comprehensive overview of deep learning-based methods for six different
document image enhancement tasks, including binarization, debluring, denoising,
defading, watermark removal, and shadow removal. We summarize the main
state-of-the-art works for each task and discuss their features, challenges,
and limitations. We introduce multiple document image enhancement tasks that
have received no to little attention, including over and under exposure
correction and bleed-through removal, and identify several other promising
research directions and opportunities for future research.
- Abstract(参考訳): 現在では、科学記事、租税形態、請求書、契約書、歴史文書などのデジタル化文書が広く使われている。
これらの画像は、撮影時の照明条件の悪さ、スキャン中の影、ノイズやぼやけなどの歪み、老朽化、インクの染み、透かし、切手など、様々な理由で劣化または損傷する可能性がある。
オプティカル文字認識(OCR)を用いたコンテンツ抽出など、多くの自動文書解析および認識タスクにおいて、文書画像の強調と復元が重要な役割を担っている。
近年のディープラーニングの進歩により,これらの文書画像の品質向上のための手法が数多く提案されている。
本稿では,異なる文書画像強調問題に対するディープラーニングに基づく手法,データセット,メトリクスについて検討する。
本稿では,バイナライゼーション,デブリ,デノイング,デファージング,透かし除去,シャドウ除去など,6つの異なる文書画像強調作業のための深層学習に基づく手法の概要について述べる。
我々は各タスクにおける最先端の成果を要約し,その特徴,課題,限界について論じる。
我々は,被曝補正や出血スルー除去など,ほとんど注意を払わなかった複数の文書画像強調タスクを導入し,他の有望な研究の方向性と今後の研究の機会を明らかにした。
関連論文リスト
- Unveiling Deep Shadows: A Survey on Image and Video Shadow Detection, Removal, and Generation in the Era of Deep Learning [81.15890262168449]
光が障害物に遭遇すると影が形成され、照度が低下する。
コンピュータビジョンにおいて、影の検出、削除、生成はシーン理解の強化、画質の改善、映像編集における視覚的一貫性の確保、仮想環境の改善に不可欠である。
本稿では,過去10年間の深層学習環境における画像や映像の影の検出,削除,生成に関する総合的な調査を行い,課題,深層モデル,データセット,評価指標について紹介する。
論文 参考訳(メタデータ) (2024-09-03T17:59:05Z) - Task-driven single-image super-resolution reconstruction of document scans [2.8391355909797644]
文書スキャンから光学的文字認識を改善するために,超解像を前処理ステップとして活用する可能性を検討する。
そこで本研究では,単一画像の超解像のための深層ネットワークをタスク駆動方式で訓練し,テキスト検出のための適応性を高めることを提案する。
論文 参考訳(メタデータ) (2024-07-12T05:18:26Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Deep Image Matting: A Comprehensive Survey [85.77905619102802]
本稿では,ディープラーニング時代における画像マッチングの最近の進歩を概観する。
本稿では,補助的な入力ベースの画像マッチングと,自動的な画像マッチングという,2つの基本的なサブタスクに焦点を当てる。
画像マッチングの関連応用について論じ,今後の研究への課題と可能性を明らかにする。
論文 参考訳(メタデータ) (2023-04-10T15:48:55Z) - Hidden Knowledge: Mathematical Methods for the Extraction of the
Fingerprint of Medieval Paper from Digital Images [1.2891210250935146]
中世の紙は紙に不確実な印字を残した型で作られる。
このインプリントには、シート上によく見られるチェーンライン、敷設ライン、透かしが含まれている。
これらの特徴を抽出することで、紙の在庫を識別し、書物や人々の年代、地域化、移動に関する情報を提供する。
論文 参考訳(メタデータ) (2023-03-07T11:01:19Z) - EraseNet: A Recurrent Residual Network for Supervised Document Cleaning [0.0]
本稿では, 完全畳み込み型自動エンコーダアーキテクチャを用いて, 汚れた文書のクリーニングを指導する手法を提案する。
本実験では, モデルが各種の常用音や異常音を学習し, 効率よく修正できるので, 有望な結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T04:23:25Z) - Augraphy: A Data Augmentation Library for Document Images [59.457999432618614]
Augraphyはデータ拡張パイプラインを構築するためのPythonライブラリである。
標準的なオフィス操作によって変更されたように見えるクリーンなドキュメントイメージの拡張版を作成するための戦略を提供する。
論文 参考訳(メタデータ) (2022-08-30T22:36:19Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Enhance to Read Better: An Improved Generative Adversarial Network for
Handwritten Document Image Enhancement [1.7491858164568674]
本稿では,GAN(Generative Adversarial Networks)に基づくエンド・ツー・エンドアーキテクチャを提案する。
私たちの知る限りでは、これは手書き文書をバイナライズしながらテキスト情報を使用する最初の作業である。
H-DIBCO 2018の課題では、人工的に劣化したラテン手書き画像でトレーニング済みのモデルを微調整した後、アートの状況よりも優れています。
論文 参考訳(メタデータ) (2021-05-26T17:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。