論文の概要: Variational Augmentation for Enhancing Historical Document Image
Binarization
- arxiv url: http://arxiv.org/abs/2211.06581v1
- Date: Sat, 12 Nov 2022 06:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 17:56:39.787896
- Title: Variational Augmentation for Enhancing Historical Document Image
Binarization
- Title(参考訳): 歴史的文書画像のバイナリ化向上のための変分拡張
- Authors: Avirup Dey, Nibaran Das, Mita Nasipuri
- Abstract要約: 歴史的文書画像のバイナリ化は画像処理においてよく知られたセグメンテーション問題である。
そこで我々は, 変分推論を用いた劣化サンプルを生成するジェネレータを備えた新しい2段階フレームワークを提案する。
2つ目は、生成されたデータをトレーニングするCNNベースのバイナライゼーションネットワークである。
- 参考スコア(独自算出の注目度): 11.342730352935913
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Historical Document Image Binarization is a well-known segmentation problem
in image processing. Despite ubiquity, traditional thresholding algorithms
achieved limited success on severely degraded document images. With the advent
of deep learning, several segmentation models were proposed that made
significant progress in the field but were limited by the unavailability of
large training datasets. To mitigate this problem, we have proposed a novel
two-stage framework -- the first of which comprises a generator that generates
degraded samples using variational inference and the second being a CNN-based
binarization network that trains on the generated data. We evaluated our
framework on a range of DIBCO datasets, where it achieved competitive results
against previous state-of-the-art methods.
- Abstract(参考訳): 歴史的文書画像バイナリ化は画像処理においてよく知られたセグメント化問題である。
ユビキタスにもかかわらず、従来のしきい値アルゴリズムは、ひどく劣化した文書画像に対して限定的な成功を収めた。
ディープラーニングの出現に伴い、いくつかのセグメンテーションモデルが提案され、この分野で大きな進歩を遂げたが、大規模なトレーニングデータセットが利用できないことで制限された。
この問題を軽減するために、我々は2段階の新たなフレームワークを提案し、その1つは変動推論を用いて劣化サンプルを生成するジェネレータと、もう1つは生成されたデータをトレーニングするCNNベースのバイナライゼーションネットワークである。
このフレームワークをdibcoデータセット上で評価し,従来の最先端手法と競合する結果を得た。
関連論文リスト
- Robust Disaster Assessment from Aerial Imagery Using Text-to-Image Synthetic Data [66.49494950674402]
航空画像からの損傷評価のタスクのための大規模合成監視を作成する際に,新たなテキスト・画像生成モデルを活用する。
低リソース領域から何千ものポストディスアスター画像を生成するために、効率的でスケーラブルなパイプラインを構築しています。
我々は,xBDおよびSKAI画像のクロスジオグラフィー領域転送設定におけるフレームワークの強度を,単一ソースとマルチソースの両方で検証する。
論文 参考訳(メタデータ) (2024-05-22T16:07:05Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - A Fair Evaluation of Various Deep Learning-Based Document Image
Binarization Approaches [5.393847875065119]
文書画像のバイナリ化は、文書解析の分野における重要な前処理ステップである。
深層学習技術は、文脈に依存した特徴を学習することで、画像のバイナライズされたバージョンを生成することができる。
本研究は,同じ評価プロトコル下での異なる深層学習手法の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-22T10:42:51Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z) - Quantifying Model Uncertainty in Inverse Problems via Bayesian Deep
Gradient Descent [4.029853654012035]
逆問題における最近の進歩は、例えばディープニューラルネットワークのような強力なデータ駆動モデルを活用する。
ベイズニューラルネットワークによるモデル不確実性を定量化するための,スケーラブルでデータ駆動型,知識支援型計算フレームワークを開発した。
論文 参考訳(メタデータ) (2020-07-20T09:43:31Z) - Transformation Consistency Regularization- A Semi-Supervised Paradigm
for Image-to-Image Translation [18.870983535180457]
本稿では,画像から画像への変換において,より困難な状況に陥るトランスフォーメーション一貫性の規則化を提案する。
我々は,画像の着色,分解,超解像の3つの異なる応用に対して,アルゴリズムの有効性を評価する。
提案手法はデータ効率が著しく向上し,画像再構成を行うにはラベル付きサンプルの約10~20%しか必要としない。
論文 参考訳(メタデータ) (2020-07-15T17:41:35Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Seismic horizon detection with neural networks [62.997667081978825]
本稿では,複数の実地震立方体上での地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
本研究の主な貢献は,複数実地震立方体における地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
論文 参考訳(メタデータ) (2020-01-10T11:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。