論文の概要: DocDiff: Document Enhancement via Residual Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.03892v2
- Date: Wed, 9 Aug 2023 07:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:30:02.799549
- Title: DocDiff: Document Enhancement via Residual Diffusion Models
- Title(参考訳): DocDiff:残差拡散モデルによる文書化
- Authors: Zongyuan Yang, Baolin Liu, Yongping Xiong, Lan Yi, Guibin Wu, Xiaojun
Tang, Ziqi Liu, Junjie Zhou, Xing Zhang
- Abstract要約: 文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
- 参考スコア(独自算出の注目度): 7.972081359533047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Removing degradation from document images not only improves their visual
quality and readability, but also enhances the performance of numerous
automated document analysis and recognition tasks. However, existing
regression-based methods optimized for pixel-level distortion reduction tend to
suffer from significant loss of high-frequency information, leading to
distorted and blurred text edges. To compensate for this major deficiency, we
propose DocDiff, the first diffusion-based framework specifically designed for
diverse challenging document enhancement problems, including document
deblurring, denoising, and removal of watermarks and seals. DocDiff consists of
two modules: the Coarse Predictor (CP), which is responsible for recovering the
primary low-frequency content, and the High-Frequency Residual Refinement (HRR)
module, which adopts the diffusion models to predict the residual
(high-frequency information, including text edges), between the ground-truth
and the CP-predicted image. DocDiff is a compact and computationally efficient
model that benefits from a well-designed network architecture, an optimized
training loss objective, and a deterministic sampling process with short time
steps. Extensive experiments demonstrate that DocDiff achieves state-of-the-art
(SOTA) performance on multiple benchmark datasets, and can significantly
enhance the readability and recognizability of degraded document images.
Furthermore, our proposed HRR module in pre-trained DocDiff is plug-and-play
and ready-to-use, with only 4.17M parameters. It greatly sharpens the text
edges generated by SOTA deblurring methods without additional joint training.
Available codes: https://github.com/Royalvice/DocDiff
- Abstract(参考訳): 文書画像からの分解を取り除くことで、視覚的品質と可読性が向上するだけでなく、多数の自動文書解析と認識タスクのパフォーマンスも向上する。
しかし、画素レベルの歪み低減に最適化された既存の回帰に基づく手法は、高周波情報の大幅な損失を伴い、歪んだテキストエッジやぼやけたテキストに繋がる。
この大きな不足を補うために,ドキュメントデブラリング,デノージング,ウォーターマークやアザラシの除去など,さまざまな難解なドキュメント拡張問題用に特別に設計された最初の拡散ベースのフレームワークであるdocdiffを提案する。
DocDiffは2つのモジュールから構成される: 一次低周波コンテンツを復元する粗い予測器(CP)と、拡散モデルを採用して、接地構造とCP予測画像の間の残差(テキストエッジを含む高周波情報)を予測する高周波残差補正(HRR)モジュールである。
DocDiffは、よく設計されたネットワークアーキテクチャ、最適化されたトレーニング損失目標、短時間で決定論的サンプリングプロセスの恩恵を受ける、コンパクトで効率的なモデルである。
大規模な実験により、DocDiffは複数のベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現し、劣化した文書画像の読みやすさと認識性を大幅に向上させることができる。
さらに,事前学習したDocDiffのHRRモジュールは,4.17Mパラメータしか持たないプラグアンドプレイで使用可能である。
追加のジョイントトレーニングなしでSOTAデブロアリング法によって生成されたテキストエッジを大幅に強化する。
利用可能なコード:https://github.com/Royalvice/DocDiff
関連論文リスト
- Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement [4.841365627573421]
文書のテキストや重要な特徴を保存しながらノイズを取り除くためには、重要な前処理ステップが不可欠である。
劣化文書の原品質を復元する拡散確率モデル(DPM)に基づく新しい生成フレームワークであるNAF-DPMを提案する。
論文 参考訳(メタデータ) (2024-04-08T16:52:21Z) - BlindDiff: Empowering Degradation Modelling in Diffusion Models for Blind Image Super-Resolution [52.47005445345593]
BlindDiff は SISR のブラインド劣化に対処するための DM ベースのブラインドSR 手法である。
BlindDiffはMAPベースの最適化をDMにシームレスに統合する。
合成データセットと実世界のデータセットの両方の実験は、BlindDiffが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-03-15T11:21:34Z) - Lightweight Adaptive Feature De-drifting for Compressed Image
Classification [10.265991649449507]
高品質な画像で訓練された高レベルの視覚モデルは、圧縮された画像を扱う際に性能劣化に悩まされる。
ビジュアルアーティファクトを扱うために、さまざまな学習ベースのJPEGアーティファクト除去手法が提案されている。
本稿では,プレトレーニング済み画像分類モデルの性能向上を図るために,新しい軽量AFDモジュールを提案する。
論文 参考訳(メタデータ) (2024-01-03T13:03:44Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - DECDM: Document Enhancement using Cycle-Consistent Diffusion Models [3.3813766129849845]
近年の拡散モデルに触発された文書レベルの画像変換手法であるDECDMを提案する。
本手法は,ソース(ノイズ入力)とターゲット(クリーン出力)モデルを独立にトレーニングすることで,ペアトレーニングの限界を克服する。
また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。
論文 参考訳(メタデータ) (2023-11-16T07:16:02Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Transformer-Based UNet with Multi-Headed Cross-Attention Skip
Connections to Eliminate Artifacts in Scanned Documents [0.0]
Swin Transformerのバックボーンを使用したUNet構造の変更を行い、スキャンされたドキュメントの典型的なアーティファクトを削除する。
合成データのエラー率を最大53.9%削減したテキスト抽出品質の改善をアーカイブする。
論文 参考訳(メタデータ) (2023-06-05T12:12:23Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Multiscale Structure Guided Diffusion for Image Deblurring [24.09642909404091]
拡散確率モデル (DPM) は画像の劣化に用いられている。
暗黙のバイアスとして、単純だが効果的なマルチスケール構造ガイダンスを導入する。
目に見えないデータのアーティファクトが少ないほど、より堅牢なデブロアリング結果を示します。
論文 参考訳(メタデータ) (2022-12-04T10:40:35Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。