論文の概要: A Fair Evaluation of Various Deep Learning-Based Document Image
Binarization Approaches
- arxiv url: http://arxiv.org/abs/2401.11831v1
- Date: Mon, 22 Jan 2024 10:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:34:49.841829
- Title: A Fair Evaluation of Various Deep Learning-Based Document Image
Binarization Approaches
- Title(参考訳): 各種深層学習に基づく文書画像二元化手法の公平な評価
- Authors: Richin Sukesh, Mathias Seuret, Anguelos Nicolaou, Martin Mayr, Vincent
Christlein
- Abstract要約: 文書画像のバイナリ化は、文書解析の分野における重要な前処理ステップである。
深層学習技術は、文脈に依存した特徴を学習することで、画像のバイナライズされたバージョンを生成することができる。
本研究は,同じ評価プロトコル下での異なる深層学習手法の評価に焦点をあてる。
- 参考スコア(独自算出の注目度): 5.393847875065119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binarization of document images is an important pre-processing step in the
field of document analysis. Traditional image binarization techniques usually
rely on histograms or local statistics to identify a valid threshold to
differentiate between different aspects of the image. Deep learning techniques
are able to generate binarized versions of the images by learning
context-dependent features that are less error-prone to degradation typically
occurring in document images. In recent years, many deep learning-based methods
have been developed for document binarization. But which one to choose? There
have been no studies that compare these methods rigorously. Therefore, this
work focuses on the evaluation of different deep learning-based methods under
the same evaluation protocol. We evaluate them on different Document Image
Binarization Contest (DIBCO) datasets and obtain very heterogeneous results. We
show that the DE-GAN model was able to perform better compared to other models
when evaluated on the DIBCO2013 dataset while DP-LinkNet performed best on the
DIBCO2017 dataset. The 2-StageGAN performed best on the DIBCO2018 dataset while
SauvolaNet outperformed the others on the DIBCO2019 challenge. Finally, we make
the code, all models and evaluation publicly available
(https://github.com/RichSu95/Document_Binarization_Collection) to ensure
reproducibility and simplify future binarization evaluations.
- Abstract(参考訳): 文書画像のバイナリ化は文書解析の分野で重要な前処理ステップである。
従来の画像バイナライゼーション技術は、画像の異なる側面を区別する有効なしきい値を特定するために、通常ヒストグラムや局所統計に依存する。
ディープラーニング技術は、ドキュメントイメージで典型的に発生するエラーの少ないコンテキスト依存の特徴を学習することで、イメージのバイナリ化バージョンを生成することができる。
近年,文書ビナライゼーションのための深層学習手法が数多く開発されている。
どちらを選ぶか?
これらの手法を厳密に比較する研究は行われていない。
そこで本研究では,同じ評価プロトコル下での異なる深層学習手法の評価に焦点を当てた。
異なる文書画像バイナリ化コンテスト(DIBCO)データセットで評価し、非常に異種な結果を得た。
DP-LinkNetがDIBCO2017データセットで最良であるのに対して,DEC-GANモデルはDIBCO2013データセットで評価した場合,他のモデルと比較して優れた性能を示した。
2-StageGANはDIBCO2018データセットで最善を尽くし、SauvolaNetはDIBCO2019チャレンジで他者を上回った。
最後に、コード、すべてのモデル、評価を公開する(https://github.com/richsu95/document_binarization_collection)。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Variational Augmentation for Enhancing Historical Document Image
Binarization [11.342730352935913]
歴史的文書画像のバイナリ化は画像処理においてよく知られたセグメンテーション問題である。
そこで我々は, 変分推論を用いた劣化サンプルを生成するジェネレータを備えた新しい2段階フレームワークを提案する。
2つ目は、生成されたデータをトレーニングするCNNベースのバイナライゼーションネットワークである。
論文 参考訳(メタデータ) (2022-11-12T06:01:21Z) - Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文 参考訳(メタデータ) (2022-08-04T01:39:37Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。