論文の概要: NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement
- arxiv url: http://arxiv.org/abs/2404.05669v1
- Date: Mon, 8 Apr 2024 16:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 13:36:07.638835
- Title: NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement
- Title(参考訳): NAF-DPM:文書強化のための非線形活性化自由拡散確率モデル
- Authors: Giordano Cicchetti, Danilo Comminiello,
- Abstract要約: 文書のテキストや重要な特徴を保存しながらノイズを取り除くためには、重要な前処理ステップが不可欠である。
劣化文書の原品質を復元する拡散確率モデル(DPM)に基づく新しい生成フレームワークであるNAF-DPMを提案する。
- 参考スコア(独自算出の注目度): 4.841365627573421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world documents may suffer various forms of degradation, often resulting in lower accuracy in optical character recognition (OCR) systems. Therefore, a crucial preprocessing step is essential to eliminate noise while preserving text and key features of documents. In this paper, we propose NAF-DPM, a novel generative framework based on a diffusion probabilistic model (DPM) designed to restore the original quality of degraded documents. While DPMs are recognized for their high-quality generated images, they are also known for their large inference time. To mitigate this problem we provide the DPM with an efficient nonlinear activation-free (NAF) network and we employ as a sampler a fast solver of ordinary differential equations, which can converge in a few iterations. To better preserve text characters, we introduce an additional differentiable module based on convolutional recurrent neural networks, simulating the behavior of an OCR system during training. Experiments conducted on various datasets showcase the superiority of our approach, achieving state-of-the-art performance in terms of pixel-level and perceptual similarity metrics. Furthermore, the results demonstrate a notable character error reduction made by OCR systems when transcribing real-world document images enhanced by our framework. Code and pre-trained models are available at https://github.com/ispamm/NAF-DPM.
- Abstract(参考訳): 現実世界の文書は様々な種類の劣化に悩まされ、光学文字認識(OCR)システムの精度が低下することがある。
したがって、文書のテキストや重要な特徴を保存しながらノイズを取り除くためには、重要な前処理ステップが不可欠である。
本稿では,分散確率モデル(DPM)に基づく新たな生成フレームワークであるNAF-DPMを提案する。
DPMは高品質な生成画像で認識されているが、大きな推論時間でも知られている。
この問題を緩和するために、DPMに効率的な非線形アクティベーションフリー(NAF)ネットワークを提供し、サンプルとして通常の微分方程式の高速解法として使用し、数イテレーションで収束することができる。
テキスト文字の保存性を向上するために,畳み込みリカレントニューラルネットワークに基づく新たな識別可能なモジュールを導入し,トレーニング中のOCRシステムの動作をシミュレートする。
様々なデータセットで行った実験は、我々のアプローチの優位性を示し、ピクセルレベルおよび知覚的類似度指標の点から最先端のパフォーマンスを達成する。
さらに,本フレームワークにより拡張された実世界の文書画像の書き起こしにおいて,OCRシステムによる文字誤りの顕著な低減が示された。
コードと事前訓練されたモデルはhttps://github.com/ispamm/NAF-DPMで入手できる。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Diffusion Model Driven Test-Time Image Adaptation for Robust Skin Lesion Classification [24.08402880603475]
テストデータ上でのモデルの精度を高めるためのテスト時間画像適応手法を提案する。
拡散モデルを用いて、対象の試験画像をソース領域に投影して修正する。
私たちの手法は、さまざまな汚職、アーキテクチャ、データレシエーションにおいて、堅牢性をより堅牢にします。
論文 参考訳(メタデータ) (2024-05-18T13:28:51Z) - On Inference Stability for Diffusion Models [6.846175045133414]
DPM(Denoising Probabilistic Models)は、多彩で高品質な画像を生成するのに優れた生成モデルの分野である。
現在のDPMのトレーニング手法の多くは、時間ステップ間の相関を無視することが多く、画像生成におけるモデルの性能を効果的に制限している。
そこで本研究では,サンプリング品質を高めるために,推定ギャップを小さくすることを目的とした,新しいtextVinitsequence-aware Losを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:57:34Z) - AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models [103.41269503488546]
既存のカスタマイズ方法は、事前訓練された拡散確率モデルをユーザが提供する概念に合わせるために、複数の参照例にアクセスする必要がある。
本論文は、DPMカスタマイズの課題として、生成コンテンツ上で定義された差別化可能な指標が唯一利用可能な監督基準である場合に解決することを目的とする。
本稿では,拡散モデルから新しいサンプルを初めて生成するAdjointDPMを提案する。
次に、随伴感度法を用いて、損失の勾配をモデルのパラメータにバックプロパゲートする。
論文 参考訳(メタデータ) (2023-07-20T09:06:21Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Unsupervised Representation Learning from Pre-trained Diffusion
Probabilistic Models [83.75414370493289]
拡散確率モデル(DPM)は高品質の画像サンプルを生成する強力な能力を示している。
Diff-AEは自動符号化による表現学習のためのDPMを探索するために提案されている。
我々は、既存のトレーニング済みDPMをデコーダに適応させるために、textbfPre-trained textbfAutotextbfEncoding (textbfPDAE)を提案する。
論文 参考訳(メタデータ) (2022-12-26T02:37:38Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。