論文の概要: Document Image Binarization in JPEG Compressed Domain using Dual
Discriminator Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2209.05921v1
- Date: Tue, 13 Sep 2022 12:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:12:08.802426
- Title: Document Image Binarization in JPEG Compressed Domain using Dual
Discriminator Generative Adversarial Networks
- Title(参考訳): Dual Discriminator Generative Adversarial Networks を用いたJPEG圧縮領域における文書画像のバイナリ化
- Authors: Bulla Rajesh and Manav Kamlesh Agrawal and Milan Bhuva and Kisalaya
Kishore and Mohammed Javed
- Abstract要約: 提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。
このモデルは非常に堅牢で、時間と空間の複雑さの両面で効率的であることが証明され、JPEG圧縮領域における最先端の性能がもたらされた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image binarization techniques are being popularly used in enhancement of
noisy and/or degraded images catering different Document Image Anlaysis (DIA)
applications like word spotting, document retrieval, and OCR. Most of the
existing techniques focus on feeding pixel images into the Convolution Neural
Networks to accomplish document binarization, which may not produce effective
results when working with compressed images that need to be processed without
full decompression. Therefore in this research paper, the idea of document
image binarization directly using JPEG compressed stream of document images is
proposed by employing Dual Discriminator Generative Adversarial Networks
(DD-GANs). Here the two discriminator networks - Global and Local work on
different image ratios and use focal loss as generator loss. The proposed model
has been thoroughly tested with different versions of DIBCO dataset having
challenges like holes, erased or smudged ink, dust, and misplaced fibres. The
model proved to be highly robust, efficient both in terms of time and space
complexities, and also resulted in state-of-the-art performance in JPEG
compressed domain.
- Abstract(参考訳): 画像バイナライゼーション技術は、単語スポッティング、文書検索、OCRといった異なる文書画像アンレイシス(DIA)アプリケーションに対応するノイズや劣化画像の強化に広く用いられている。
既存の技術のほとんどは、文書のバイナライゼーションを達成するために、コンボリューションニューラルネットワークにピクセル画像を送り込むことに重点を置いている。
そこで本研究では,文書画像のJPEG圧縮ストリームを用いた文書画像バイナライゼーションのアイデアを,Dual Discriminator Generative Adversarial Networks (DD-GANs) を用いて提案する。
ここでは、グローバルとローカルの2つの識別ネットワーク - 異なる画像比で作業し、焦点損失をジェネレータ損失として使用する。
提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。
モデルは非常に堅牢で、時間と空間の複雑さの両方において効率が良く、jpeg圧縮領域で最先端のパフォーマンスが得られた。
関連論文リスト
- A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - DWT-CompCNN: Deep Image Classification Network for High Throughput JPEG
2000 Compressed Documents [0.9405458160620535]
DWT CompCNN は High Throughput JPEG 2000 (HTJ2K) アルゴリズムを用いて圧縮された文書の分類を行う。
提案モデルでは時間と空間の効率が向上し,圧縮領域の分類精度も向上する。
論文 参考訳(メタデータ) (2023-06-02T08:33:58Z) - CCDWT-GAN: Generative Adversarial Networks Based on Color Channel Using
Discrete Wavelet Transform for Document Image Binarization [3.0175628677371935]
本稿では,カラーチャネルに基づく生成逆ネットワークを用いた新規性手法を提案する。
提案手法は, 画像前処理, 画像強調, 画像バイナライゼーションの3段階からなる。
実験の結果、CCDWT-GANは複数のベンチマークデータセットで上位2つの性能を達成した。
論文 参考訳(メタデータ) (2023-05-27T08:55:56Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Learned Lossless Compression for JPEG via Frequency-Domain Prediction [50.20577108662153]
JPEG画像のロスレス圧縮を学習するための新しいフレームワークを提案する。
周波数領域での学習を可能にするために、DCT係数は暗黙の局所冗長性を利用するためにグループに分割される。
グループ化されたDCT係数のエントロピーモデリングを実現するために、重み付きブロックに基づいてオートエンコーダのようなアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-05T13:15:28Z) - T2CI-GAN: Text to Compressed Image generation using Generative
Adversarial Network [9.657133242509671]
実際には、ほとんどの視覚データは、圧縮された表現形式で処理され、送信される。
提案手法は,Deep Convolutional GAN(DCGAN)を用いて,圧縮表現形式で直接視覚データを生成しようとするものである。
最初のモデルはJPEG圧縮DCT画像(圧縮領域)で直接訓練され、テキスト記述から圧縮画像を生成する。
第2のモデルはRGB画像(ピクセル領域)でトレーニングされ、テキスト記述からJPEG圧縮DCT表現を生成する。
論文 参考訳(メタデータ) (2022-10-01T09:26:25Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z) - Learning to Improve Image Compression without Changing the Standard
Decoder [100.32492297717056]
本稿では,標準デコーダによる符号化性能向上のための学習法を提案する。
具体的には、DCT係数の分布を最適化する周波数領域事前編集法を提案する。
JPEGデコーダは変更しないので、広く使われている標準JPEGデコーダで画像を見る際には、我々のアプローチが適用可能である。
論文 参考訳(メタデータ) (2020-09-27T19:24:42Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。