論文の概要: DE-GAN: A Conditional Generative Adversarial Network for Document
Enhancement
- arxiv url: http://arxiv.org/abs/2010.08764v1
- Date: Sat, 17 Oct 2020 10:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 11:55:31.348311
- Title: DE-GAN: A Conditional Generative Adversarial Network for Document
Enhancement
- Title(参考訳): de-gan: 文書エンハンスメントのための条件付き生成広告ネットワーク
- Authors: Mohamed Ali Souibgui and Yousri Kessentini
- Abstract要約: 本稿では,高度に劣化した文書イメージを復元するために,文書拡張生成適応ネットワーク(DE-GAN)と呼ばれるエンドツーエンドのフレームワークを提案する。
異なるタスク(文書のクリーンアップ、ビナライゼーション、デブロアリング、透かし除去)において、DE-GANは劣化した文書を高品質に拡張できることを示した。
- 参考スコア(独自算出の注目度): 4.073826298938431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Documents often exhibit various forms of degradation, which make it hard to
be read and substantially deteriorate the performance of an OCR system. In this
paper, we propose an effective end-to-end framework named Document Enhancement
Generative Adversarial Networks (DE-GAN) that uses the conditional GANs (cGANs)
to restore severely degraded document images. To the best of our knowledge,
this practice has not been studied within the context of generative adversarial
deep networks. We demonstrate that, in different tasks (document clean up,
binarization, deblurring and watermark removal), DE-GAN can produce an enhanced
version of the degraded document with a high quality. In addition, our approach
provides consistent improvements compared to state-of-the-art methods over the
widely used DIBCO 2013, DIBCO 2017 and H-DIBCO 2018 datasets, proving its
ability to restore a degraded document image to its ideal condition. The
obtained results on a wide variety of degradation reveal the flexibility of the
proposed model to be exploited in other document enhancement problems.
- Abstract(参考訳): 文書はしばしば様々な種類の劣化を示すため、読みにくく、OCRシステムの性能を著しく劣化させる。
本稿では,厳格に劣化した文書画像の復元に条件付きGAN(cGAN)を用いる文書拡張生成支援ネットワーク(DE-GAN)という,効果的なエンドツーエンドフレームワークを提案する。
我々の知る限りでは、この実践は生成的敵対的深層ネットワークの文脈内では研究されていない。
異なるタスク(ドキュメントのクリーンアップ、バイナリ化、デブラリング、ウォーターマークの除去)において、de-ganは、高品質で劣化したドキュメントの強化バージョンを作成できることを実証する。
さらに,広く使用されている dibco 2013 dibco 2017 と h-dibco 2018 のデータセットと比較して,最先端の手法と比較して一貫性のある改善を行い,劣化したドキュメントイメージを理想的な状態に復元する能力を証明する。
その結果,提案モデルの柔軟性が他の文書拡張問題に悪用されることが明らかとなった。
関連論文リスト
- LayeredDoc: Domain Adaptive Document Restoration with a Layer Separation Approach [9.643486775455841]
本稿では,文書画像復元システムにおける領域適応性を向上するテキスト・グラフィック・レイヤ分離手法を提案する。
本稿では,2つのレイヤ情報を利用するLayeredDocを提案する。第1のターゲットは粗粒のグラフィックコンポーネントであり,第2のレイヤは機械印刷されたテキストコンテンツを洗練する。
本研究では,本研究のために開発された新しい実世界のデータセットであるLayeredDocDBを用いて,定性的かつ定量的にアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-12T19:41:01Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - EraseNet: A Recurrent Residual Network for Supervised Document Cleaning [0.0]
本稿では, 完全畳み込み型自動エンコーダアーキテクチャを用いて, 汚れた文書のクリーニングを指導する手法を提案する。
本実験では, モデルが各種の常用音や異常音を学習し, 効率よく修正できるので, 有望な結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T04:23:25Z) - Document Image Binarization in JPEG Compressed Domain using Dual
Discriminator Generative Adversarial Networks [0.0]
提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。
このモデルは非常に堅牢で、時間と空間の複雑さの両面で効率的であることが証明され、JPEG圧縮領域における最先端の性能がもたらされた。
論文 参考訳(メタデータ) (2022-09-13T12:07:32Z) - Enhance to Read Better: An Improved Generative Adversarial Network for
Handwritten Document Image Enhancement [1.7491858164568674]
本稿では,GAN(Generative Adversarial Networks)に基づくエンド・ツー・エンドアーキテクチャを提案する。
私たちの知る限りでは、これは手書き文書をバイナライズしながらテキスト情報を使用する最初の作業である。
H-DIBCO 2018の課題では、人工的に劣化したラテン手書き画像でトレーニング済みのモデルを微調整した後、アートの状況よりも優れています。
論文 参考訳(メタデータ) (2021-05-26T17:44:45Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z) - Improved Consistency Regularization for GANs [102.17007700413326]
本稿では,その性能向上を目的とした整合性正規化手法について,いくつかの改良を加えて検討する。
CIFAR-10とCelebAの無条件画像合成では、様々なGANアーキテクチャ上で最もよく知られたFIDスコアが得られる。
ImageNet-2012では、この手法をオリジナルのBigGANモデルに適用し、FIDを6.66から5.38に改善する。
論文 参考訳(メタデータ) (2020-02-11T22:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。