論文の概要: Enhance to Read Better: An Improved Generative Adversarial Network for
Handwritten Document Image Enhancement
- arxiv url: http://arxiv.org/abs/2105.12710v1
- Date: Wed, 26 May 2021 17:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 14:58:58.473674
- Title: Enhance to Read Better: An Improved Generative Adversarial Network for
Handwritten Document Image Enhancement
- Title(参考訳): enhance to read better: 手書き文書画像エンハンスメントのための生成型adversarial networkの改良
- Authors: Sana Khamekhem Jemni and Mohamed Ali Souibgui and Yousri Kessentini
and Alicia Forn\'es
- Abstract要約: 本稿では,GAN(Generative Adversarial Networks)に基づくエンド・ツー・エンドアーキテクチャを提案する。
私たちの知る限りでは、これは手書き文書をバイナライズしながらテキスト情報を使用する最初の作業である。
H-DIBCO 2018の課題では、人工的に劣化したラテン手書き画像でトレーニング済みのモデルを微調整した後、アートの状況よりも優れています。
- 参考スコア(独自算出の注目度): 1.7491858164568674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten document images can be highly affected by degradation for
different reasons: Paper ageing, daily-life scenarios (wrinkles, dust, etc.),
bad scanning process and so on. These artifacts raise many readability issues
for current Handwritten Text Recognition (HTR) algorithms and severely devalue
their efficiency. In this paper, we propose an end to end architecture based on
Generative Adversarial Networks (GANs) to recover the degraded documents into a
clean and readable form. Unlike the most well-known document binarization
methods, which try to improve the visual quality of the degraded document, the
proposed architecture integrates a handwritten text recognizer that promotes
the generated document image to be more readable. To the best of our knowledge,
this is the first work to use the text information while binarizing handwritten
documents. Extensive experiments conducted on degraded Arabic and Latin
handwritten documents demonstrate the usefulness of integrating the recognizer
within the GAN architecture, which improves both the visual quality and the
readability of the degraded document images. Moreover, we outperform the state
of the art in H-DIBCO 2018 challenge, after fine tuning our pre-trained model
with synthetically degraded Latin handwritten images, on this task.
- Abstract(参考訳): 手書きの文書画像は、紙の老化、日々のシナリオ(しわ、ほこりなど)といったさまざまな理由により、劣化の影響を強く受けます。
), 走査不良などがあった。
これらのアーティファクトは、現在の手書き文字認識(HTR)アルゴリズムに対して多くの可読性問題を引き起こし、その効率を著しく劣化させる。
本稿では,劣化文書をクリーンで読みやすい形式に復元するgans(generative adversarial network)に基づくエンド・ツー・エンドのアーキテクチャを提案する。
劣化した文書の視覚的品質を向上しようとする最もよく知られた文書ビナライゼーション手法とは異なり、提案アーキテクチャでは、生成した文書画像をより読みやすくする手書き文字認識器を統合する。
私たちの知る限りでは、これは手書き文書をバイナライズしながらテキスト情報を使用する最初の作業である。
劣化したアラビア語とラテン語の手書き文書を広範囲に実験した結果、ganアーキテクチャに認識器を統合するの有用性が示され、劣化した文書画像の視覚的品質と可読性が向上した。
さらに,本課題では,合成劣化したラテン手書き画像を用いて事前学習したモデルを微調整し,h-dibco 2018チャレンジの最先端技術を上回る結果を得た。
関連論文リスト
- DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - EraseNet: A Recurrent Residual Network for Supervised Document Cleaning [0.0]
本稿では, 完全畳み込み型自動エンコーダアーキテクチャを用いて, 汚れた文書のクリーニングを指導する手法を提案する。
本実験では, モデルが各種の常用音や異常音を学習し, 効率よく修正できるので, 有望な結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T04:23:25Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - DE-GAN: A Conditional Generative Adversarial Network for Document
Enhancement [4.073826298938431]
本稿では,高度に劣化した文書イメージを復元するために,文書拡張生成適応ネットワーク(DE-GAN)と呼ばれるエンドツーエンドのフレームワークを提案する。
異なるタスク(文書のクリーンアップ、ビナライゼーション、デブロアリング、透かし除去)において、DE-GANは劣化した文書を高品質に拡張できることを示した。
論文 参考訳(メタデータ) (2020-10-17T10:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。