論文の概要: MFE-GAN: Efficient GAN-based Framework for Document Image Enhancement and Binarization with Multi-scale Feature Extraction
- arxiv url: http://arxiv.org/abs/2512.14114v1
- Date: Tue, 16 Dec 2025 05:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.610021
- Title: MFE-GAN: Efficient GAN-based Framework for Document Image Enhancement and Binarization with Multi-scale Feature Extraction
- Title(参考訳): MFE-GAN:マルチスケール特徴抽出による文書画像強調・二元化のための効率的なGANベースフレームワーク
- Authors: Rui-Yang Ju, KokSheik Wong, Yanlin Jin, Jen-Shiun Chiang,
- Abstract要約: MFE-GANはマルチスケール特徴抽出による効率的なGANベースのフレームワークである。
モデルの性能を向上させるために, 新規なジェネレータ, 識別器, 損失関数を提案する。
- 参考スコア(独自算出の注目度): 7.031239620427525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document image enhancement and binarization are commonly performed prior to document analysis and recognition tasks for improving the efficiency and accuracy of optical character recognition (OCR) systems. This is because directly recognizing text in degraded documents, particularly in color images, often results in unsatisfactory recognition performance. To address these issues, existing methods train independent generative adversarial networks (GANs) for different color channels to remove shadows and noise, which, in turn, facilitates efficient text information extraction. However, deploying multiple GANs results in long training and inference times. To reduce both training and inference times of document image enhancement and binarization models, we propose MFE-GAN, an efficient GAN-based framework with multi-scale feature extraction (MFE), which incorporates Haar wavelet transformation (HWT) and normalization to process document images before feeding them into GANs for training. In addition, we present novel generators, discriminators, and loss functions to improve the model's performance, and we conduct ablation studies to demonstrate their effectiveness. Experimental results on the Benchmark, Nabuco, and CMATERdb datasets demonstrate that the proposed MFE-GAN significantly reduces the total training and inference times while maintaining comparable performance with respect to state-of-the-art (SOTA) methods. The implementation of this work is available at https://ruiyangju.github.io/MFE-GAN.
- Abstract(参考訳): 光文字認識(OCR)システムの効率と精度を向上させるために、文書解析や認識タスクの前に文書画像の強調とバイナライゼーションを行うのが一般的である。
これは、劣化した文書、特にカラー画像で直接テキストを認識することが、しばしば不満足な認識性能をもたらすためである。
これらの問題に対処するため、既存の手法では、異なる色チャネルに対して独立した生成敵ネットワーク(GAN)を訓練し、シャドーとノイズを除去し、効率の良いテキスト情報抽出を容易にする。
しかし、複数のGANをデプロイすると、長いトレーニングと推論時間が発生する。
文書画像強調とバイナライゼーションモデルのトレーニング時間と推論時間を両立させるため,HWT(Hear Wavelet transformation)と正規化を組み込んだマルチスケール特徴抽出(MFE)を備えた効率的なGANベースのフレームワークであるMFE-GANを提案する。
さらに、モデルの性能を向上させるために、新規なジェネレータ、識別器、損失関数を提案し、その効果を実証するためにアブレーション研究を行う。
ベンチマーク、ナブコ、CMATERdbデータセットの実験結果から、提案したMFE-GANは、最先端(SOTA)メソッドと同等の性能を維持しながら、トレーニング総量と推論時間を著しく短縮することが示された。
この作業の実装はhttps://ruiyangju.github.io/MFE-GAN.comで公開されている。
関連論文リスト
- Data Factory with Minimal Human Effort Using VLMs [35.30747487237989]
我々は、予め訓練されたコントロールネットとビジョンランゲージモデル(VLM)を統合して、ピクセルレベルのラベルと組み合わせた合成画像を生成する。
このアプローチは手動のアノテーションの必要性を排除し、下流のタスクを大幅に改善します。
PASCAL-5i と COCO-20i は,単発セマンティックセマンティックセグメンテーションにおいて有望な性能と性能を示す。
論文 参考訳(メタデータ) (2025-10-07T09:43:24Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Efficient GANs for Document Image Binarization Based on DWT and Normalization [7.597556504891501]
GAN(Generative Adversarial Network)は、影やノイズを効果的に除去した画像を生成し、テキスト情報の抽出を可能にする。
本研究では、離散ウェーブレット変換と正規化を組み込んだ3段階ネットワークアーキテクチャに基づく効率的なGAN手法を提案する。
実験の結果,提案手法はSOTA法と比較してトレーニング時間を10%削減し,推論時間を26%短縮することがわかった。
論文 参考訳(メタデータ) (2024-07-05T03:19:32Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - X-Transfer: A Transfer Learning-Based Framework for GAN-Generated Fake
Image Detection [33.31312811230408]
顔置換などの偽画像を生成するためにGANを誤用することは、重大なセキュリティ上の懸念を引き起こす。
本稿では,新しい画像検出アルゴリズムであるX-Transferを提案する。
インターリーブされた並列勾配伝送を利用する2つのニューラルネットワークを利用することで、トランスファーラーニングを強化する。
論文 参考訳(メタデータ) (2023-10-07T01:23:49Z) - CCDWT-GAN: Generative Adversarial Networks Based on Color Channel Using
Discrete Wavelet Transform for Document Image Binarization [3.0175628677371935]
本稿では,カラーチャネルに基づく生成逆ネットワークを用いた新規性手法を提案する。
提案手法は, 画像前処理, 画像強調, 画像バイナライゼーションの3段階からなる。
実験の結果、CCDWT-GANは複数のベンチマークデータセットで上位2つの性能を達成した。
論文 参考訳(メタデータ) (2023-05-27T08:55:56Z) - Improving GAN Training via Feature Space Shrinkage [69.98365478398593]
本稿では,識別器の画像表現空間におけるトレーニングデータの領域を縮小するAdaptiveMixを提案する。
直接有界な特徴空間を考慮し, ハードサンプルを構築し, ハードサンプルと簡単なサンプル間の特徴距離を狭めることを提案する。
評価結果から,我々のAdaptiveMixはGANの訓練を容易にし,生成したサンプルの画像品質を効果的に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-03-02T20:22:24Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。