論文の概要: DocStormer: Revitalizing Multi-Degraded Colored Document Images to
Pristine PDF
- arxiv url: http://arxiv.org/abs/2310.17910v1
- Date: Fri, 27 Oct 2023 05:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:45:59.327476
- Title: DocStormer: Revitalizing Multi-Degraded Colored Document Images to
Pristine PDF
- Title(参考訳): DocStormer: マルチグレードのカラードキュメンテーションイメージをPrismine PDFにリバイバル
- Authors: Chaowei Liu, Jichun Li, Yihua Teng, Chaoqun Wang, Nuo Xu, Jihao Wu,
Dandan Tu
- Abstract要約: 色とりどりの多彩な画像の復元は大きな課題だが、見落としている。
本稿では,多彩色文書をPDFに復元する新しいアルゴリズムであるDocStormerを提案する。
- 参考スコア(独自算出の注目度): 16.00821082362719
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For capturing colored document images, e.g. posters and magazines, it is
common that multiple degradations such as shadows, wrinkles, etc., are
simultaneously introduced due to external factors. Restoring multi-degraded
colored document images is a great challenge, yet overlooked, as most existing
algorithms focus on enhancing color-ignored document images via binarization.
Thus, we propose DocStormer, a novel algorithm designed to restore
multi-degraded colored documents to their potential pristine PDF. The
contributions are: firstly, we propose a "Perceive-then-Restore" paradigm with
a reinforced transformer block, which more effectively encodes and utilizes the
distribution of degradations. Secondly, we are the first to utilize GAN and
pristine PDF magazine images to narrow the distribution gap between the
enhanced results and PDF images, in pursuit of less degradation and better
visual quality. Thirdly, we propose a non-parametric strategy, PFILI, which
enables a smaller training scale and larger testing resolutions with acceptable
detail trade-off, while saving memory and inference time. Fourthly, we are the
first to propose a novel Multi-Degraded Colored Document image Enhancing
dataset, named MD-CDE, for both training and evaluation. Experimental results
show that the DocStormer exhibits superior performance, capable of revitalizing
multi-degraded colored documents into their potential pristine digital
versions, which fills the current academic gap from the perspective of method,
data, and task.
- Abstract(参考訳): ポスターや雑誌などの有色文書画像の撮影には、外部要因による影やしわなどの複数の劣化が同時に導入されることが一般的である。
既存のほとんどのアルゴリズムでは、バイナライゼーションによるカラー無視された文書イメージの強化に重点を置いているため、色分けされた文書イメージの復元は大きな課題である。
そこで本研究では,多変色文書を潜在的に原始的なpdfに復元する新しいアルゴリズムであるdocstormerを提案する。
まず, 劣化の分布をより効果的にエンコードし活用する, 強化トランスブロックを用いた「知覚的再ストア」パラダイムを提案する。
第2に,gan と pristine のpdfマガジン画像を用いて,改良結果とpdf画像との分布ギャップを狭め,劣化の軽減と視覚品質の向上を追求した。
第3に,メモリと推論時間を節約しつつ,より小さなトレーニングスケールとより詳細なトレードオフによるテスト解決を可能にする非パラメトリック戦略pfiliを提案する。
第4に、トレーニングと評価の両方のために、md-cdeと呼ばれる、新しいマルチグレードカラー文書画像強化データセットを提案する。
実験の結果,DocStormerは,多彩色文書を潜在的に原始的なデジタルバージョンに再活性化できる優れた性能を示し,手法,データ,タスクの観点から,現在の学術的ギャップを埋めていることがわかった。
関連論文リスト
- CCDWT-GAN: Generative Adversarial Networks Based on Color Channel Using
Discrete Wavelet Transform for Document Image Binarization [3.0175628677371935]
本稿では,カラーチャネルに基づく生成逆ネットワークを用いた新規性手法を提案する。
提案手法は, 画像前処理, 画像強調, 画像バイナライゼーションの3段階からなる。
実験の結果、CCDWT-GANは複数のベンチマークデータセットで上位2つの性能を達成した。
論文 参考訳(メタデータ) (2023-05-27T08:55:56Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Document Image Binarization in JPEG Compressed Domain using Dual
Discriminator Generative Adversarial Networks [0.0]
提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。
このモデルは非常に堅牢で、時間と空間の複雑さの両面で効率的であることが証明され、JPEG圧縮領域における最先端の性能がもたらされた。
論文 参考訳(メタデータ) (2022-09-13T12:07:32Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Degrade is Upgrade: Learning Degradation for Low-light Image Enhancement [52.49231695707198]
2段階の工程で細部と色を精錬しながら、内在的な劣化と低照度画像を照らし出す。
カラー画像の定式化に触発されて,まず低照度入力からの劣化を推定し,環境照明色の歪みをシミュレーションし,そのコンテンツを精錬して拡散照明色の損失を回復した。
LOL1000データセットではPSNRで0.95dB、ExDarkデータセットでは3.18%のmAPでSOTAを上回った。
論文 参考訳(メタデータ) (2021-03-19T04:00:27Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z) - Early Exit or Not: Resource-Efficient Blind Quality Enhancement for
Compressed Images [54.40852143927333]
ロスシー画像圧縮は、通信帯域を節約するために広範に行われ、望ましくない圧縮アーティファクトをもたらす。
圧縮画像に対する資源効率の高いブラインド品質向上手法(RBQE)を提案する。
提案手法は, 評価された画像の品質に応じて, 自動的にエンハンスメントを終了するか, 継続するかを決定することができる。
論文 参考訳(メタデータ) (2020-06-30T07:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。