論文の概要: Efficient GANs for Document Image Binarization Based on DWT and Normalization
- arxiv url: http://arxiv.org/abs/2407.04231v1
- Date: Fri, 5 Jul 2024 03:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:41:15.160882
- Title: Efficient GANs for Document Image Binarization Based on DWT and Normalization
- Title(参考訳): DWTと正規化に基づく文書画像二元化のための効率的なGAN
- Authors: Rui-Yang Ju, KokSheik Wong, Jen-Shiun Chiang,
- Abstract要約: GAN(Generative Adversarial Network)は、影やノイズを効果的に除去した画像を生成し、テキスト情報の抽出を可能にする。
本研究では、離散ウェーブレット変換と正規化を組み込んだ3段階ネットワークアーキテクチャに基づく効率的なGAN手法を提案する。
実験の結果,提案手法はSOTA法と比較してトレーニング時間を10%削減し,推論時間を26%短縮することがわかった。
- 参考スコア(独自算出の注目度): 7.597556504891501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For document image binarization task, generative adversarial networks (GANs) can generate images where shadows and noise are effectively removed, which allow for text information extraction. The current state-of-the-art (SOTA) method proposes a three-stage network architecture that utilizes six GANs. Despite its excellent model performance, the SOTA network architecture requires long training and inference times. To overcome this problem, this work introduces an efficient GAN method based on the three-stage network architecture that incorporates the Discrete Wavelet Transformation and normalization to reduce the input image size, which in turns, decrease both training and inference times. In addition, this work presents novel generators, discriminators, and loss functions to improve the model's performance. Experimental results show that the proposed method reduces the training time by 10% and the inference time by 26% when compared to the SOTA method while maintaining the model performance at 73.79 of Avg-Score. Our implementation code is available on GitHub at https://github.com/RuiyangJu/Efficient_Document_Image_Binarization.
- Abstract(参考訳): 文書画像バイナライゼーションタスクでは、生成敵対ネットワーク(GAN)は、影やノイズを効果的に除去した画像を生成し、テキスト情報抽出を可能にする。
現在のSOTA(State-of-the-art)法では、6つのGANを利用する3段階のネットワークアーキテクチャを提案する。
優れたモデル性能にもかかわらず、SOTAネットワークアーキテクチャは長いトレーニングと推論時間を必要とする。
この問題を解決するために、離散ウェーブレット変換と正規化を組み込んだ3段階ネットワークアーキテクチャに基づく効率的なGAN手法を導入し、入力画像サイズを削減し、学習時間と推論時間を短縮する。
さらに、モデルの性能を向上させるために、新規なジェネレータ、識別器、損失関数を提示する。
実験の結果,Avg-Scoreの73.79でモデル性能を維持しつつ,SOTA法と比較してトレーニング時間を10%削減し,推論時間を26%短縮した。
実装コードはGitHubでhttps://github.com/RuiyangJu/Efficient_Document_Image_Binarizationで公開しています。
関連論文リスト
- WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - DH-GAN: A Physics-driven Untrained Generative Adversarial Network for 3D
Microscopic Imaging using Digital Holography [3.4635026053111484]
デジタルホログラフィー(Digital holography)は、平面波面を持つレーザービームを物体に放出し、ホログラムと呼ばれる回折波形の強度を測定する3Dイメージング技術である。
近年,より正確なホログラフィック処理に深層学習(DL)法が用いられている。
本稿では, 識別ネットワークを用いて, 復元品質のセマンティック尺度を実現する, 生成的敵ネットワークに基づく新しいDLアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-25T17:13:45Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Enabling Retrain-free Deep Neural Network Pruning using Surrogate
Lagrangian Relaxation [2.691929135895278]
サロゲート・ラグランジアン・リラクゼーション(SLR)に基づく体系的な軽量化最適化手法を開発。
SLRは、同じ精度で最先端技術よりも高い圧縮率を達成する。
再学習の予算が限られているため,本手法はモデル精度を迅速に回復する。
論文 参考訳(メタデータ) (2020-12-18T07:17:30Z) - Road Segmentation for Remote Sensing Images using Adversarial Spatial
Pyramid Networks [28.32775611169636]
合成画像生成と道路分割に構造化領域適応を適用した新しいモデルを提案する。
マルチレベルの特徴マップから学び、特徴のセマンティクスを改善するために、新しいスケールワイズアーキテクチャが導入された。
我々のモデルは、14.89Mパラメータと86.78B FLOPを持つマサチューセッツのデータセット上で、最先端の78.86 IOUを達成し、4倍少ないFLOPを持つが、より高精度(+3.47% IOU)である。
論文 参考訳(メタデータ) (2020-08-10T11:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。