Fugu-MT 論文翻訳(概要): Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks

論文の概要: Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks

arxiv url: http://arxiv.org/abs/2211.16098v8
Date: Sat, 28 Sep 2024 13:36:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 23:02:15.297666
Title: Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks
Title（参考訳）: 離散ウェーブレット変換と生成対向ネットワークに基づくカラー文書画像の3段階バイナライゼーション
Authors: Rui-Yang Ju, Yu-Shian Lin, Yanlin Jin, Chih-Chia Chen, Chun-Tse Chien, Jen-Shiun Chiang,
Abstract要約: 本研究は,GANを用いた劣化文書の画像強調とバイナライゼーションに有効な3段階ネットワーク手法を提案する。実験の結果、提案手法のAvg-Score測定値は、(H)-DIBCO 2011, 2013, 2014, 2017, 2018データセット上で77.64, 77.95, 79.05, 76.38, 75.34, 77.00であることが示されている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The efficient extraction of text information from the background in degraded color document images is an important challenge in the preservation of ancient manuscripts. The imperfect preservation of ancient manuscripts has led to different types of degradation over time, such as page yellowing, staining, and ink bleeding, seriously affecting the results of document image binarization. This work proposes an effective three-stage network method to image enhancement and binarization of degraded documents using generative adversarial networks (GANs). Specifically, in Stage-1, we first split the input images into multiple patches, and then split these patches into four single-channel patch images (gray, red, green, and blue). Then, three single-channel patch images (red, green, and blue) are processed by the discrete wavelet transform (DWT) with normalization. In Stage-2, we use four independent generators to separately train GAN models based on the four channels on the processed patch images to extract color foreground information. Finally, in Stage-3, we train two independent GAN models on the outputs of Stage-2 and the resized original input images (512x512) as the local and global predictions to obtain the final outputs. The experimental results show that the Avg-Score metrics of the proposed method are 77.64, 77.95, 79.05, 76.38, 75.34, and 77.00 on the (H)-DIBCO 2011, 2013, 2014, 2016, 2017, and 2018 datasets, which are at the state-of-the-art level. The implementation code for this work is available at https://github.com/abcpp12383/ThreeStageBinarization.
Abstract（参考訳）: 劣化したカラー文書画像における背景からのテキスト情報の効率的な抽出は、古写本の保存において重要な課題である。古写本の不完全な保存は、ページイエロー、染色、インクの出血など、時間の経過とともに様々な種類の劣化を引き起こし、文書画像のバイナライゼーションの結果に深刻な影響を与えている。本研究は,GANを用いた劣化文書の高精細化と二項化を効果的に行う3段階ネットワーク手法を提案する。特にStage-1では、まず入力イメージを複数のパッチに分割し、その後、パッチを4つの単一チャネルパッチイメージ(灰色、赤、緑、青)に分割します。次に、離散ウェーブレット変換(DWT)により3つの単一チャネルパッチ画像(赤、緑、青)を正規化して処理する。ステージ2では、4つの独立したジェネレータを用いて、処理されたパッチ画像上の4つのチャンネルに基づいてGANモデルを個別に訓練し、色フォアグラウンド情報を抽出する。最後に,第3段階において,第2段階の出力と第2段階の出力画像(512x512)を局所的および大域的予測としてトレーニングし,最終的な出力を得る。実験の結果、提案手法のAvg-Score測定値は、(H)-DIBCO 2011, 2013, 2014, 2017, 2018の77.64, 77.95, 79.05, 76.38, 75.34, 77.00であることがわかった。この作業の実装コードはhttps://github.com/abcpp12383/ThreeStageBinarizationで公開されている。

関連論文リスト

Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-31T01:20:16Z)
SPDGAN: A Generative Adversarial Network based on SPD Manifold Learning for Automatic Image Colorization [1.220743263007369]
生成逆ネットワーク(SPDGAN)を用いたSymmetric Positive Definite (SPD) Manifold Learningに基づく完全自動カラー化手法を提案する。本モデルは,2つの識別器とジェネレータの対角ゲームを確立する。その目標は,残差接続により層間の色情報を失うことなく,偽のカラー化画像を生成することである。
論文参考訳（メタデータ） (2023-12-21T00:52:01Z)
A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-12-06T23:01:11Z)
Improving Video Colorization by Test-Time Tuning [79.67548221384202]
テスト時間チューニングによる映像の着色性向上を目的とした,効果的な手法を提案する。提案手法は,テスト中に追加のトレーニングサンプルを構築するための基準を利用して,PSNRにおいて平均13dBの性能向上を実現している。
論文参考訳（メタデータ） (2023-06-25T05:36:40Z)
CCDWT-GAN: Generative Adversarial Networks Based on Color Channel Using Discrete Wavelet Transform for Document Image Binarization [3.0175628677371935]
本稿では,カラーチャネルに基づく生成逆ネットワークを用いた新規性手法を提案する。提案手法は, 画像前処理, 画像強調, 画像バイナライゼーションの3段階からなる。実験の結果、CCDWT-GANは複数のベンチマークデータセットで上位2つの性能を達成した。
論文参考訳（メタデータ） (2023-05-27T08:55:56Z)
BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature Fusion for Deep Exemplar-based Video Colorization [70.14893481468525]
本稿では,参照例の色を探索し,映像のカラー化を支援するために有効なBiSTNetを提案する。まず、各フレームと参照例間の深い特徴空間における意味的対応を確立し、参照例からの色情報を探究する。我々は,フレームのオブジェクト境界をモデル化するための意味情報を抽出する混合専門家ブロックを開発した。
論文参考訳（メタデータ） (2022-12-05T13:47:15Z)
Detecting Recolored Image by Spatial Correlation [60.08643417333974]
画像のリカラー化は、画像の色値を操作して新しいスタイルを与える、新たな編集技術である。本稿では,空間相関の観点から,従来型と深層学習による再色検出の汎用的検出能力を示す解を探索する。提案手法は,複数のベンチマークデータセット上での最先端検出精度を実現し,未知の種類の再色法を適切に一般化する。
論文参考訳（メタデータ） (2022-04-23T01:54:06Z)
Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。 4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文参考訳（メタデータ） (2021-11-10T17:49:29Z)
Two-stage generative adversarial networks for document image binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文参考訳（メタデータ） (2020-10-20T07:51:50Z)
Instance-aware Image Colorization [51.12040118366072]
本稿では,インスタンス認識のカラー化を実現する手法を提案する。我々のネットワークアーキテクチャは、市販のオブジェクト検出器を利用して、収穫されたオブジェクト画像を取得する。類似したネットワークを用いて、フルイメージの特徴を抽出し、融合モジュールを適用して最終色を予測する。
論文参考訳（メタデータ） (2020-05-21T17:59:23Z)
Image Demoireing with Learnable Bandpass Filters [18.94907983950051]
この問題に対処する新しいマルチスケールバンドパス畳み込みニューラルネットワーク(MBCNN)を提案する。テクスチャ復元のための学習可能なバンドパスフィルタ (LBF) を提案する。色復元のために,まずグローバルな色変化の補正にグローバルなトーンマッピングを適用する2段階のトーンマッピング戦略を提案し,その後,画素ごとの局所的な微調整を行う。
論文参考訳（メタデータ） (2020-04-01T12:57:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。