論文の概要、ライセンス

# (参考訳) HDIB1M -- 手書き文書画像バイナライゼーション100万データセット [全文訳有]

HDIB1M -- Handwritten Document Image Binarization 1 Million Dataset ( http://arxiv.org/abs/2101.11674v1 )

ライセンス: CC BY 4.0
Kaustubh Sadekar, Prajwal Singh, Shanmuganathan Raman(参考訳) 手書きの文書画像のバイナライゼーションは、文書の内容、ページスタイル、および条件の多様性が高いため、困難な作業です。 従来のしきい値化手法は、このような困難なシナリオでは一般化できないが、ディープラーニングベースのメソッドは、大規模なトレーニングデータを必要とする。 手書きのドキュメントイメージバイナライゼーションのための現在のデータセットは、サイズに制限があり、いくつかの困難な現実のシナリオを表現できません。 そこで本研究では,1M画像の文書画像ビナライゼーションデータセットであるHDIB1Mを提案する。 また,このデータセットの生成に用いる新しい手法を提案する。 データセットの有効性を示すために、データセット上で深層学習モデルUNetEDをトレーニングし、他の公開データセットのパフォーマンスを評価する。 データセットとコードは、コミュニティで利用可能になる。

Handwritten document image binarization is a challenging task due to high diversity in the content, page style, and condition of the documents. While the traditional thresholding methods fail to generalize on such challenging scenarios, deep learning based methods can generalize well however, require a large training data. Current datasets for handwritten document image binarization are limited in size and fail to represent several challenging real-world scenarios. To solve this problem, we propose HDIB1M - a handwritten document image binarization dataset of 1M images. We also present a novel method used to generate this dataset. To show the effectiveness of our dataset we train a deep learning model UNetED on our dataset and evaluate its performance on other publicly available datasets. The dataset and the code will be made available to the community.
公開日: Wed, 27 Jan 2021 20:14:14 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
HDIB1M - HANDWRITTEN DOCUMENT IMAGE BINARIZATION 1 MILLION DATASET HDIB1M - HANDWRITTEN DOCUMENT IMAGE BINARIZATION 1ミリオンデータセット 0.79
Kaustubh Sadekar, Prajwal Singh, Shanmuganathan Raman Kaustubh Sadekar, Prajwal Singh, Shanmuganathan Raman 0.85
Indian Institute of Technology, Gandhinagar インド工科大学ガンディーナガル校 0.50
1 2 0 2 n a J 1 2 0 2 n a J 0.85
7 2 ] V C . 7 2 ] V C。 0.81
s c [ 1 v 4 7 6 1 1 sc [ 1 v 4 7 6 1 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
ABSTRACT Handwritten document image binarization is a challenging task due to high diversity in the content, page style, and condition of the documents. ABSTRACT 手書きの文書画像のバイナライゼーションは、文書の内容、ページスタイル、および条件の多様性が高いため、困難な作業です。 0.79
While the traditional thresholding methods fail to generalize on such challenging scenarios, deep learning based methods can generalize well however, require a large training data. 従来のしきい値化手法は、このような困難なシナリオでは一般化できないが、ディープラーニングベースのメソッドは、大規模なトレーニングデータを必要とする。 0.59
Current datasets for handwritten document image binarization are limited in size and fail to represent several challenging real-world scenarios. 手書きのドキュメントイメージバイナライゼーションのための現在のデータセットは、サイズに制限があり、いくつかの困難な現実のシナリオを表現できません。 0.55
To solve this problem, we propose HDIB1M - a handwritten document image binarization dataset of 1M images. そこで本研究では,1M画像の文書画像ビナライゼーションデータセットであるHDIB1Mを提案する。 0.79
We also present a novel method used to generate this dataset. また,このデータセットの生成に用いる新しい手法を提案する。 0.73
To show the effectiveness of our dataset we train a deep learning model UNetED on our dataset and evaluate its performance on other publicly available datasets. データセットの有効性を示すために、データセット上で深層学習モデルUNetEDをトレーニングし、他の公開データセットのパフォーマンスを評価する。 0.76
The dataset and the code will be made available to the community. データセットとコードは、コミュニティで利用可能になる。 0.67
Index Terms— Document image binarization, Encoder- Index Terms - Document Image Binarization, Encoder- 0.90
Decoder, Data Augmentation, Seamless Cloning. Decoder、Data Augmentation、Seamless Cloning。 0.73
1. INTRODUCTION Handwritten document image binarization segments a given document image into the handwritten content (foreground) from the page (background). 1. 導入 手書きのドキュメントイメージバイナライゼーションは、与えられたドキュメントイメージをページ(背景)から手書きのコンテンツ(前景)に分割します。 0.71
It is an important pre-processing step for several document image analysis tasks because the background page often acts as a noise. バックグラウンドページがノイズとして振る舞うことが多いため、複数のドキュメント画像解析タスクでは重要な前処理ステップです。 0.77
Degradation in the document image quality makes binarization very challenging. 文書の画質の劣化はバイナライゼーションを非常に困難にします。 0.64
Some common degradation scenarios include crumbled pages, stains, and challenging lighting conditions. 一般的な劣化シナリオには、折りたたみページ、汚れ、難解な照明条件などがある。 0.61
Unlike printed documents, handwritten documents pose an additional challenge. 印刷された文書とは異なり、手書きの文書にはさらなる課題が生じる。 0.58
They have pages with grids or lines which help us to write in an evenly space manner. グリッドや行のあるページがあり、均等に空間的に書くのに役立ちます。
訳抜け防止モード: 彼らはグリッドや線のあるページを持っています 均等な空間で書くのに役立ちます
0.73
However, these grids and lines increase the difficulty of segmenting the handwritten content. しかし、これらのグリッドと線は手書きコンテンツのセグメンテーションを困難にする。 0.74
All these challenges make handwritten document image binarization an exciting research problem. これらすべての課題は、手書きのドキュメントイメージバイナライゼーションをエキサイティングな研究問題にします。 0.60
Traditional methods like Otsu image segmentation [1] and Adaptive thresholding [2] fail to address these challenges. Otsu Image segmentation [1]やAdaptive thresholding [2]のような従来の方法は、これらの課題に対処できません。 0.68
This results in noisy binarization, which adversely affects the downstream task of document image analysis. その結果,文書画像解析の下流処理に悪影響を及ぼす雑音二項化が生じる。 0.82
In the past decade, deep learning methods have shown promising results and robustness in distinguishing between the desired content and the background page [3, 4]. 過去10年間、ディープラーニングの手法は、希望するコンテンツと背景ページを区別する有望な結果と堅牢性を示しています[3, 4]。 0.68
Deep learning models rely heavily on large amount of data for better generalization [5, ディープラーニングモデルは,汎用性を改善するために大量のデータに大きく依存する[5]。 0.64
Fig. 1. Diagram showing the steps involved in the generation of HDIB1M dataset image Iin and corresponding ground truth Igt using content image Ic, page style image Ip and degradation image It フィギュア。 1. コンテンツ画像Ic,ページスタイル画像Ip,劣化画像を用いたHDIB1Mデータセット画像Iinと対応する接地真理Igtの生成に関わるステップを示す図です。 0.71
6, 7]. However, document image binarization lacks such a large and diverse dataset which covers numerous real-world scenarios. 6, 7]. しかし、ドキュメントイメージのバイナライゼーションには、多くの現実世界のシナリオをカバーする大規模で多様なデータセットが欠けています。 0.62
In a recent work [8], a special deep generative network called Texture Augmentation Network (TANet) is used to increase the size and diversity of the dataset. 最近の研究 [8]では、データセットのサイズと多様性を高めるために、テクスチャ拡張ネットワーク(tanet)と呼ばれる特別な深層生成ネットワークが使われている。 0.76
However, the diversity of images generated by such a method is limited to the underlying distribution of the training data and fails to cover several real-world scenarios when trained on current datasets. しかし、そのような方法で生成された画像の多様性は、トレーニングデータの基盤となる分布に限られており、現在のデータセットでトレーニングされた場合、現実のシナリオをカバーできない。 0.64
In this paper, we propose a dataset of one million images under different challenging scenarios for handwritten document image binarization. 本稿では,手書き文書画像の2値化の難解なシナリオにおいて,100万画像のデータセットを提案する。 0.72
We call it HDIB1M - Handwritten Document Image Binarization 1 Million dataset. HDIB1M - 手書きのドキュメントイメージバイナリ化100万のデータセットです。 0.69
It is important to note that for each image in the dataset we also provide accurate ground truth for segmentation of the handwritten content. データセットの各画像に対して、手書きコンテンツのセグメンテーションに関する正確な根拠真理も提供できることに注意する必要がある。 0.79
In Figure 2, we show some sample images from the dataset with the corresponding ground truth. 図2では、データセットからのサンプルイメージを、対応する基底真理で示します。 0.79
In Section 2, we describe the method to generate the dataset which is a key contribution of this work. セクション2では、この作業の重要な貢献であるデータセットを生成する方法を説明します。 0.72
In the later part of the section we describe a U-Net [9] based encoder-decoder model (UNetED) for document image binarization. 後半のセクションでは、U-Net [9]ベースのエンコーダデコーダモデル(UNetED)をドキュメントイメージバイナライゼーションのために記述します。 0.74
In Section 3, we report the qualitative and quantitative results of experiments to show the 第3節では, 実験の定性的, 定量的結果について報告する。 0.65
© IEEE 2021 IEEE 2021とは? 0.52
英語(論文から抽出)日本語訳スコア
effectiveness of our dataset. データセットの有効性。 0.67
We show that UNetED when trained on our proposed dataset can generalize well on unseen images of other publicly available datasets like DIBCO [10, 11], H-DBICO [12] and PHIDB [13]. 提案したデータセット上で訓練されたUNetEDは、DIBCO [10, 11]、H-DBICO [12]、PHIDB [13]などの他の公開データセットの未確認画像にうまく一般化できることを示しています。 0.66
The key contributions of the paper are as follows: 論文の主な貢献は次のとおりである。 0.76
• A dataset of one million images with accurate ground truth for handwritten document image binarizationHDIB1M. •手書き文書画像ビナライゼーションHDIB1Mの精度の高い100万枚の画像のデータセット。 0.78
• A scalable and efficient method to generate as well as •スケーラブルで効率的な生成方法 0.50
extend the proposed dataset. 提案されたデータセットを拡張する。 0.50
• A compact and efficient encoder-decoder model UNetED, trained on the proposed dataset that is capable of generalizing over various challenging scenarios. • コンパクトで効率的なエンコーダ・デコーダモデル uneted は,さまざまなシナリオを一般化可能な,提案されたデータセットに基づいてトレーニングされる。 0.66
2. METHODOLOGY Dataset Generation. 2. 方法論 データセット生成。 0.66
We propose a novel data generation technique that uses adaptive thresholding [2] and mixed gradient seamless cloning algorithm proposed in [14]. 適応しきい値[2]と[14]で提案された混合勾配シームレスクローニングアルゴリズムを用いた新しいデータ生成手法を提案する。 0.89
First, we collect images containing a variety of handwritten content with plain background Ic. まず、プレーンな背景Icを持つさまざまな手書きのコンテンツを含む画像を収集します。 0.65
We apply adaptive thresholding FA on the content images Ic [2] to obtain the ground truth Igt for the binarization task as per Equation 1. コンテンツ画像Ic [2]に適応しきい値 FA を適用して、方程式1に従って二項化タスクの基底真理 Igt を求める。 0.76
A total of 10944 unique content images are generated by cropping and augmenting multiple patches of the captured content images. キャプチャされたコンテンツ画像の複数のパッチをトリミングして拡大することにより、合計10944のユニークなコンテンツ画像を生成する。
訳抜け防止モード: 合計10944個のコンテンツ画像が生成される キャプチャされたコンテンツイメージの複数のパッチを トリミングして強化する。
0.81
Igt = FA(Ic) Igt = FA(Ic) 0.85
(1) The foreground represented by the generated ground truth remains unchanged while the background can vary depending on different degradation scenarios as well as different page styles. 1)生成された地上の真実によって表される前景は変わりませんが、背景はさまざまな劣化シナリオと異なるページスタイルによって異なります。 0.76
Hence, for the same ground truth we can generate multiple scenarios by varying the background of the document image. したがって、同じ根拠として、文書イメージの背景を変更することで、複数のシナリオを生成することができる。 0.71
To generate different backgrounds we manually capture pages with a large variety of page styles Ip (Table 1) as well as pages with a variety of degradation It that represent realworld scenarios (Table 2). 異なるバックグラウンドを生成するには、様々なページスタイルip(テーブル1)と、現実世界のシナリオを表す様々な分解のあるページ(テーブル2)を使って、手動でページをキャプチャします。 0.81
We then use mixed gradient-based seamless cloning FSC [14] to blend multiple patches of Ip and It to generate 20484 photorealistic background images Ibg as described in Equation 2. 次に,複数のipパッチをブレンドするために混合勾配に基づくシームレスクローニングfsc[14]を用い,等式2に記載した20484フォトリアリスティックな背景画像ibgを生成する。 0.73
Ibg = FSC(Ip, It) Ibg = FSC(Ip, it) 0.85
(2) We combine the content images Ic and the background images Ibg to generate the handwritten document images Iin (Equation 3) which have the same ground truth Igt. (2) コンテンツ画像icと背景画像ibgとを組み合わせることで、同一の基底真理igtを有する手書き文書画像iin(equation3)を生成する。 0.79
To generate the HDIB1M dataset, we randomly sample 100 background images Ibg for each of the handwritten content images Ic. HDIB1Mデータセットを生成するために、手書きコンテンツ画像Icごとに100個の背景画像Ibgをランダムにサンプリングする。 0.77
Iin = FSC(Ic, Ibg) Iin = FSC(Ic, Ibg) 0.85
(3) The proposed dataset generation method has several advantages. (3) 提案するデータセット生成法には,いくつかの利点がある。 0.68
First, it is easy to generate accurate ground truth data. まず、正確な事実データを生成することが容易である。 0.78
Second, use of the mixed gradient seamless cloning makes it possible to blend the content with different backgrounds to generate photorealistic images that model a large variety of real-world handwritten document images. 第2に,多種多様な実世界の手書き文書画像をモデル化するフォトリアリスティックな画像を生成するために,コンテントと異なる背景をブレンドすることが可能である。 0.75
Third, the method is computationally less expensive compared to deep learning based generative methods like the one proposed in [8] which making it possible to generate multiple unique images from a single content image with varying background conditions on the fly. 第3に,本手法は, [8] に提案されているような深層学習に基づく生成手法に比べて計算コストが低いため, 背景条件の異なる単一コンテンツ画像から複数のユニークな画像を生成することができる。 0.88
Encoder-Decoder Model. エンコーダデコーダモデル。 0.77
To show the effectiveness of our proposed dataset, we create UNetED - a U-Net [9] based endocer-decoder model and train it on our dataset. 提案したデータセットの有効性を示すために、U-Net [9]ベースのエンドサーデコーダモデルであるUNetEDを作成し、データセット上でトレーニングします。 0.72
The encoder network consists of four downsampling blocks, and the decoder network consists of four upsampling blocks. エンコーダネットワークは4つのダウンサンプリングブロックで構成され、デコーダネットワークは4つのアップサンプリングブロックで構成される。 0.64
Each upsampling and downsampling blocks consist of 2D convolution layer, batch normalization layer, and ReLU activation function. 各アップサンプリングおよびダウンサンプリングブロックは、2D畳み込み層、バッチ正規化層、ReLUアクティベーション機能から構成される。 0.64
Details of the UNetED model are mentioned in Table 3. UNetEDモデルの詳細はテーブル3に記載されている。 0.83
Loss Function. We use binary cross-entropy loss to train UNetED as per Equation 4. 機能を失う。 我々は2次クロスエントロピー損失を用いて, unetedを等式4に従ってトレーニングする。 0.62
Binary cross-entropy loss is proven to be more effective than MSE loss for several classification tasks [15]. バイナリクロスエントロピー損失は, いくつかの分類タスクにおいて, MSE損失よりも有効であることが証明された[15]。
訳抜け防止モード: バイナリクロス-エントロピー損失が証明される 複数の分類タスク [15 ] において, MSE損失よりも効果的である。
0.69
L = −Igtlog(Fnet(Iin))−(1−Igt)log(1−Fnet(Iin))) (4) L = −Igtlog(Fnet(Iin))−(1−Igt)log(1−Fnet(Iin)) (4) 0.97
Here Fnet represents the functional form of UNetED ここでFnetはUNetEDの機能形式を表す 0.83
model. Page Style モデル。 ページスタイル 0.77
Number of Samples Uniform ruled lines サンプル数 制服支配線 0.61
Non-uniform ruled lines Grid line 非一様支配線 グリッドライン 0.69
Staff notation lines Partially blank Pages スタッフ表記行 部分的に空白のページ 0.67
Blank Pages 27 15 19 25 17 19 空白ページ 27 15 19 25 17 19 0.79
Table 1. Statistics for different types of page styles covered in HDIB1M dataset. 表1。 HDIB1Mデータセットでカバーされた異なるタイプのページスタイルの統計。 0.71
Degradation Effect Shadow gradients Oily Patches 影勾配の劣化効果 油性パッチ 0.68
Rear ink blotting Crumbled Pages 裏インクの膨れあがったページ 0.71
Challenging lighting conditions Liquid Stains 照明条件の調整 液体染料 0.68
Noisy background Number of Samples 騒音背景 サンプル数 0.67
87 12 107 18 18 97 27 87 12 107 18 18 97 27 0.85
Table 2. Statistics for different types of degradation effects covered in HDIB1M dataset. 表2。 hdib1mデータセットでカバーされるさまざまな劣化効果の統計。 0.71
2 2 0.85
英語(論文から抽出)日本語訳スコア
Fig. 2. Images sampled from the proposed HDIB1M dataset showing the input images Iin (first row) and the ground truth images Igt (second row). フィギュア。 2. 提案したHDIB1Mデータセットから,入力画像Iin(第1行)と接地真実画像Igt(第2行)をサンプリングした。 0.66
3. EXPERIMENTS In this section, we share the results of various experiments performed to evaluate the effectiveness and diversity of the HDIB1M dataset. 3. 実験 本稿では,HDIB1Mデータセットの有効性と多様性を評価するために,様々な実験結果を共有する。 0.71
We also share the details of the UNetED model. UNetEDモデルの詳細も共有しています。 0.68
3.1. Dataset Details 3.1. データセットの詳細 0.66
HDIB1M. The HDIB1M dataset consists of 1 million images and corresponding accurate ground truth for the content binarization task. HDIB1M。 HDIB1Mデータセットは100万の画像と、コンテンツバイナライゼーションタスクの正確な基底真理で構成されている。 0.70
The dataset is split into training, validation, and test set with an overall percentage of 80 - 10 - 10, respectively. データセットはトレーニング、検証、テストセットに分割され、全体のパーセンテージはそれぞれ80 - 10 - 10です。 0.66
Other Datasets. We use four other publicly available datasets for various experiments mentioned in this section: DIBCO13 [11], DIBCO11 [10], HDIBCO14 [12], PHIBD [13]. 他のデータセット。 このセクションでは、他の4つの公開データセットを使用して、DIBCO13[11]、DIBCO11[10]、HDIBCO14[12]、PHIBD[13]という様々な実験を行います。
訳抜け防止モード: 他のデータセット。 本項で述べた様々な実験のために、他の4つの公開データセットを使用します。 DIBCO11 [10 ], HDIBCO14 [12 ], PHIBD [13 ]。
0.70
3.2. Evaluation metrics We use four different metrics for evaluation: F-measure (F) [16], pseudo-F-measure Fps [16], Distance-ReciprocalD istortion DRD [17] and Peak Signal to Noise Ratio PSNR [16]. 3.2. 評価指標 評価には,f-measure (f) [16], pseudo-f-measure fps [16], distance-reciprocald istortion drd [17], peak signal to noise ratio psnr [16]の4つの指標を用いた。 0.74
As the written content occupies a very small fraction of the entire page the ratio of foreground (the written content) and background (the page), pixels to be classified is highly skewed. 書かれたコンテンツはページ全体のごく一部を占めているため、前景(書かれたコンテンツ)と背景(ページ)の比率は、分類されるべきピクセルは非常に歪んでいます。 0.77
This motivated us to use F-measure as one of the evaluation metrics. これにより、評価指標の1つとしてF尺度を使うことに動機づけられた。 0.49
We also use pseudo-F-measure proposed in [16] as it is specifically designed for document binarization task and has a better correlation with downstream tasks like OCR (Optical Character Recognition). また,文書バイナライズタスクに特化して設計されており,OCR(Optical Character Recognition)などの下流タスクとの相関性が高いため,[16]で提案した擬似F尺度も用いている。 0.73
PSNR tells us how close is the overall predicted image to the ground truth. PSNRは、予測された全体像が真実にどれほど近いかを教えてくれる。 0.66
In the case of document binarization, the inter-pixel distance contributes significantly to the visual interference of pixels [17]. 文書双対化の場合、画素間距離は画素[17]の視覚的干渉に大きく寄与する。 0.63
Hence, we use DRD to penalize the pixels with different weights based on their distance from the ground truth border したがって、地上の真理境界からの距離に基づいて異なる重みで画素をペナライズするためにDRDを用いる。
訳抜け防止モード: したがって、我々はDRDを使う。 接地真理境界からの距離に基づいて異なる重みで画素をペナルティ化する
0.70
[16]. For better predictions F, Fps and PSNR should increase, and DRD should decrease. [16]. より良い予測F、Fps、PSNRは増加し、DRDは減少すべきである。 0.71
3.3. Performance evaluation of the proposed UNetED and AdBiNet [8] trained on HDIB1M training set Training and Evaluation. 3.3. hdib1mトレーニングセットの訓練と評価を訓練したunetedおよびadbinet [8]の性能評価 0.72
The UNetED and AdBiNet models are trained on the train set of HDIB1M and evaluated directly on the test set consisting of the following publicly available datasets: HDIB1M test set, DIBCO13, DIBCO11, HDIBCO2015 and PHIBD. UNetEDおよびAdBiNetモデルは、HDIB1Mの列車セットで訓練され、HDIB1Mテストセット、DIBCO13、DIBCO11、HDIBCO2015およびPHIBDの次の公開データセットからなるテストセット上で直接評価されます。 0.75
We also evaluate the performance of Otsu image segmentation [1] on the test set images. また,テストセット画像上での大津画像セグメンテーション[1]の性能も評価した。 0.69
Layer Description Input RGB image 層の説明 RGB画像入力 0.78
K P Output Tensor Dim. K P 出力テンソルダイム。 0.62
CxHxW 3xHxW CxHxW 3xHxW 0.88
Block Description 27xHxW ブロックの説明 27xHxW 0.79
27xH/2xW/2 36xH/2xW/2 36xH/4xW/4 54xH/4xW/4 54xH/8xW/8 69xH/8xW/8 69xH/16xW/16 27xH/2xW/2 36xH/2xW/2 36xH/4xW/4 54xH/4xW/4 54xH/8xW/8 69xH/8 69xH/16xW/16 0.20
1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 0.85
Encoder Layers 3 3 3 3 3 3 3 3 Decoder Layers 3 3 3 3 3 3 3 3 3 3 Encoder Layers 3 3 3 3 3 3 3 3 Decoder Layers 3 3 3 3 3 3 3 3 3 3 0.85
1 2 1 2 1 2 1 2 2 2 1 2 1 2 1 2 1 2 2 2 0.85
54xH/16xW/16 54xH/8xW/8 36xH/8xW/8 36xH/4xW/4 27xH/4xW/4 27xH/2xW/2 27xH/2xW/2 54xh/16xw/16 54xh/8xw/8 36xh/8 36xh/4xw/4 27xh/2xw/2 27xh/2xw/2 0.22
15xHxW 9xHxW 1xHxW 15xHxW 9xHxW 1xHxW 0.67
Downsampling block 1 ダウンサンプリングブロック1 0.79
Downsampling block 2 ダウンサンプリングブロック2 0.76
Downsampling block 3 ダウンサンプリングブロック3 0.77
Downsampling block 4 ダウンサンプリングブロック4 0.76
Upsampling block 1 アップサンプリングブロック1 0.73
Upsampling block 2 Upsampling ブロック 2。 0.86
Upsampling block 3 Upsampling ブロック 3。 0.86
Upsampling block 4 Upsampling ブロック 4。 0.86
#0 #1 #2 #3 #4 #5 #6 #7 #8 #0 #1 #2 #3 #4 #5 #6 #7 #8 0.85
Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d Conv2d 0.42
ConvTranspose2d ConvTranspose2d 0.59
ConvTranspose2d ConvTranspose2d ConvTranspose2d ConvTranspose2d 0.50
#9 #10 #11 ConvTranspose2d ( #10 ⊕ #6) #12 #13 ConvTranspose2d ( #12 ⊕ #4) #14 #15 ConvTranspose2d ( #14 ⊕ #2) #16 #17 #18 #9 #10 #11 ConvTranspose2d ( #10 ⊕ #6) #12 #13 ConvTranspose2d ( #12 ⊕ #4) #14 #15 ConvTranspose2d ( #14 ⊕ #2) #16 #17 #18 0.96
ConvTranspose2d ConvTranspose2d ConvTranspose2d ConvTranspose2d ConvTranspose2d ConvTranspose2d 0.47
ConvTranspose2d ConvTranspose2d 0.59
Table 3. Summary of the UNetED model for document image binarization. 表3。 文書画像バイナライゼーションのためのUNetEDモデルの概要。 0.72
Here ⊕ represents concatenation operation. 以下は連結操作を表す。 0.67
K is the kernel size and P is the padding. K はカーネルサイズ、P はパディングである。 0.64
3 3 0.85
英語(論文から抽出)日本語訳スコア
Results. The quantitative results are shown in Table 4 and the qualitative results are shown in Figure 3. 結果。 定量的な結果は表4に示され、定性的な結果は図3に示されます。 0.69
In Figure 4 we also show the images generated by AdBiNet [8] trained on our dataset. 図4では、データセットで訓練されたAdBiNet [8]によって生成された画像も示します。 0.63
We observe that a simple encoder-decoder model - UNetED when trained on our proposed dataset outperforms deep generative based models like AdBiNet [8] on all the datasets, which shows the effectiveness and diversity of our dataset. 提案データセットでトレーニングされたUNetEDは、すべてのデータセットでAdBiNet[8]のような深層生成ベースモデルよりも優れており、データセットの有効性と多様性を示しています。 0.76
In Figure 4 we observe that AdBiNet is able to transfer the content images to the generated images but fails to transfer the background style effectively. 図4では、AdBiNetは生成された画像にコンテンツイメージを転送できますが、バックグラウンドスタイルを効果的に転送できません。 0.79
Fig. 4. Qualitative results of AdiBiNet [8] trained on our dataset showing its ability to generate novel image (third column) by transferring the content from input content images (first column) and background style from input style images (second column). フィギュア。 4. AdiBiNet [8]は,入力されたコンテンツ画像(第1列)と入力されたスタイル画像(第2列)から背景スタイルからコンテンツを転送することで,新しい画像(第3列)を生成する能力を示す。 0.69
The binarization result of AdBiNet is shown in the last column. 最後の列に AdBiNet の二元化結果が表示されます。 0.81
4. CONCLUSION We propose a diverse dataset for handwritten document image binarization task (HDIB1M) and an efficient as well as a scalable method to generate it. 4. 結論 本論文では,手書き文書画像バイナライゼーションタスク (HDIB1M) のための多様なデータセットと,それを生成するスケーラブルな方法を提案する。 0.71
We show that a U-Net based encoder-decoder model (UNetED) can generalize well on unseen handwritten document images because of the diversity of our proposed dataset. u-net ベースのエンコーダ-デコーダモデル (uneted) は,提案するデータセットの多様性から,手書きの文書画像に対して十分に一般化できることを示す。 0.67
This paper also highlights that fundamental image processing algorithms can be used as effective tools to support the existing deep learning based methods, like in our case we use adaptive thresholding and mixed gradient based seamless cloning to generate the dataset. 本稿では,既存の深層学習に基づく手法をサポートするための効果的なツールとして,基本画像処理アルゴリズムが利用可能であることを強調する。この場合,適応しきい値法と混合勾配に基づくシームレスなクローニング法を用いてデータセットを生成する。 0.73
We believe that our dataset will be helpful for the image processing and computer vision community. 私たちのデータセットは、画像処理とコンピュータビジョンコミュニティに役立つと信じています。 0.81
Fig. 3. Qualitative results for evaluation of the UNetED model trained on HDIB1M dataset and tested on DIBCO11, DIBCO13, HDIBCO14, PHIB12, and HDIB1M(ours) test set. フィギュア。 3. HDIB1Mデータセットでトレーニングし、DIBCO11、DIBCO13、HDIBCO14、PHIB12、HDIB1M(ours)テストセットでテストしたUNetEDモデルの質的評価結果。
訳抜け防止モード: フィギュア。 3. HDIB1Mデータセットを用いたUNetEDモデルの定性評価結果 DIBCO11、DIBCO13、HDIBCO14、PHIB12、 そしてHDIB1M(ours )テストセット。
0.69
First row shows the input images, second row shows the ground truth, output predicted by UNetED is shown in third row and output of Otsu segmentation is shown in fourth row. 第1行は入力画像を示し、第2行は基底真理を示し、UNetEDによって予測される出力は第3行、大津セグメンテーションの出力は第4行である。 0.73
Test Set DIBCO11 テストセット DIBCO11 0.79
DIBCO13 HDIBCO14 DIBCO13 HDIBCO14 0.78
PHIB12 HDIB1M PHIB12 HDIB1M 0.69
Methods Otsu[1] AdBiNet [8] 方法Otsu[1] AdBiNet [8] 0.83
UNetED Otsu [1] UNetED Otsu [1] 0.85
AdBiNet [8] AdBiNet [8] 0.85
UNetED Otsu [1] UNetED Otsu [1] 0.85
AdBiNet [8] AdBiNet [8] 0.85
UNetED Otsu [1] UNetED Otsu [1] 0.85
AdBiNet [8] AdBiNet [8] 0.85
UNetED Otsu [1] UNetED Otsu [1] 0.85
AdBiNet [8] AdBiNet [8] 0.85
UNetED PSNR DRD 0.85 16.19 2.74 13.17 16.31 0.87 0.19 16.62 2.73 14.88 16.65 0.21 0.19 0.30 0.12 13.21 16.20 0.39 16.46 0.30 12.67 1.86 0.26 15.57 0.32 8.45 0.16 16.34 12.23 0.32 UNetED PSNR DRD 0.85 16.19 2.74 13.17 16.31 0.87 0.19 16.62 2.73 14.88 16.65 0.21 0.19 0.30 0.12 13.21 16.20 0.39 16.46 0.30 12.67 1.86 0.26 15.57 0.32 8.45 0.16 16.34 12.23 0.32 0.63
F 0.87 0.32 0.87 0.80 0.37 0.83 0.92 0.35 0.83 0.82 0.17 0.71 0.28 0.13 0.38 F 0.87 0.32 0.87 0.80 0.37 0.83 0.92 0.35 0.83 0.82 0.17 0.71 0.28 0.13 0.38 0.43
Fps 0.91 0.46 0.91 0.83 0.48 0.85 0.96 0.41 0.81 0.85 0.24 0.71 0.28 0.13 0.38 Fps 0.91 0.46 0.91 0.83 0.48 0.85 0.96 0.41 0.81 0.85 0.24 0.71 0.28 0.13 0.38 0.43
Table 4. Quantitative results for evaluation of UNetED and AdBiNet trained on HDIB1M dataset. 表4。 HDIB1MデータセットでトレーニングしたUNetEDとAdBiNetの評価のための定量的結果。 0.67
4 4 0.85
英語(論文から抽出)日本語訳スコア
[12] K. Ntirogiannis, B. Gatos, and I. Pratikakis, “Icfhr2014 competition on handwritten document image binarization (h-dibco 2014),” in 2014 14th International Conference on Frontiers in Handwriting Recognition, 2014, pp. 12] K. Ntirogiannis, B. Gatos, I. Pratikakis, “Icfhr2014 competition on handwriting document image binarization (h-dibco 2014)”. 2014年の第14回国際フロンティア会議 on Frontiers in Handwriting Recognition, 2014 pp。 0.94
809–813. [13] H. Z. Nafchi, S. M. Ayatollahi, R. F. Moghaddam, and M. Cheriet, “An efficient ground truthing tool for binarization of historical manuscripts,” in 2013 12th International Conference on Document Analysis and Recognition, 2013, pp. 809–813. H. Z. Nafchi, S. M. Ayatollahi, R. F. Moghaddam, and M. Cheriet, “An efficient ground truthing tool for binarization of historical manuscripts” in 2013 12th International Conference on Document Analysis and Recognition, 2013 pp. 2013 0.80
807–811. [14] Patrick P´erez, Michel Gangnet, and Andrew Blake, “Poisson image editing,” in ACM SIGGRAPH 2003 Papers, New York, NY, USA, 2003, SIGGRAPH ’03, p. 313–318, Association for Computing Machinery. 807–811. 14] Patrick P ́erez, Michel Gangnet, Andrew Blake, “Poisson image editing” in ACM SIGGRAPH 2003 Papers, New York, NY, USA, 2003, SIGGRAPH ’03, p. 313–318, Association for Computing Machinery。 0.78
[15] Pavel Golik, Patrick Doetsch, and H. Ney, 15] Pavel Golik、Patrick Doetsch、H. Ney。 0.70
“Crossentropy vs. squared error training: a theoretical and experimental comparison,” in INTERSPEECH, 2013. Crossentropy vs. squared error training: a theory and experimental comparison” in INTERSPEECH, 2013。 0.74
[16] K. Ntirogiannis, B. Gatos, and I. Pratikakis, “Performance evaluation methodology for historical document image binarization,” IEEE Transactions on Image Processing, vol. 16] K. Ntirogiannis, B. Gatos, I. Pratikakis, “Performance Evaluation Method for Historical Document Image Binarization”, IEEE Transactions on Image Processing, vol. 画像処理に関するトランザクション。 0.86
22, no. 2, pp. 22、いいえ。 2、p。 0.68
595–609, 2013. 595–609, 2013. 0.84
[17] Haiping Lu, A. C. Kot, and Y. Q. Shi, [17]HAIping Lu, A. C. Kot, Y. Q. Shi 0.84
“Distancereciprocal distortion measure for binary document images,” IEEE Signal Processing Letters, vol. IEEE Signal Processing Letters, vol. “Distancereciprocal distortion measure for binary document images”. 0.84
11, no. 2, pp. 11、いいえ。 2、p。 0.67
228–231, 2004. 228–231, 2004. 0.84
5. REFERENCES [1] N. Otsu, “A threshold selection method from gray-level histograms,” IEEE Transactions on Systems, Man, and Cybernetics, vol. 5. 参考 [1] N. Otsu, “グレーレベルヒストグラムからのしきい値選択法”, IEEE Transactions on Systems, Man, and Cybernetics, vol。 0.71
9, no. 1, pp. 9、いいえ。 1、p。 0.68
62–66, 1979. 62–66, 1979. 0.84
[2] Pierre D Wellner, “Adaptive thresholding for the digi- [2] Pierre D Wellner, “Adaptive thresholding for the digi” 0.86
taldesk,” Xerox, EPC1993-110, pp. taldesk", xerox, epc1993-110, pp。 0.86
1–19, 1993. 1–19, 1993. 0.84
[3] Chris Tensmeyer and T. Martinez, “Document image binarization with fully convolutional neural networks,” 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), vol. [3] chris tensmeyer and t. martinez, “document image binarization with full convolutional neural networks” 2017年第14回iapr international conference on document analysis and recognition (icdar), vol。 0.80
01, pp. 99–104, 2017. 01, pp。 99–104, 2017. 0.82
[4] Quang Nhat Vo, Soo Hyung Kim, Hyung Jeong Yang, and Gueesang Lee, “Binarization of degraded document images based on hierarchical deep supervised network,” Pattern Recogn., vol. [4]Quang Nhat Vo, Soo Hyung Kim, Hyung Jeong Yang, Gueesang Lee, “階層的な深層監視ネットワークに基づく劣化文書画像のビナライゼーション”, Pattern Recogn., vol. 0.80
74, no. C, pp. 74、いいえ。 C, pp。 0.78
568–586, Feb. 2018. 568-586, 2018年2月。 0.60
[5] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, and Lior Wolf, “Deepface: Closing the gap to human-level performance in face verification,” 09 2014. 5] yaniv taigman, ming yang, marc’aurelio ranzato, lior wolf, “deepface: close the gap to human-level performance in face verification”. 2014年9月9日閲覧。 0.79
[6] Sergey Levine, Peter Pastor, Alex Krizhevsky, Julian Ibarz, and Deirdre Quillen, “Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection,” The International Journal of Robotics Research, vol. The International Journal of Robotics Research, vol.[6] Sergey Levine, Peter Pastor, Alex Krizhevsky, Julian Ibarz, Deirdre Quillen, “Deirdre Quillen, Leearning Hand-eye coordinateing for robotic grasping with Deep Learning and Large-scale data collection”. The International Journal of Robotics Research, Vol. 0.84
37, no. 4-5, pp. 37、いいえ。 4-5, pp。 0.77
421–436, 2018. 421–436, 2018. 0.84
[7] J. Johnson, A. Karpathy, and Li Fei-Fei, “Densecap: Fully convolutional localization networks for dense captioning,” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 7] J. Johnson, A. Karpathy, Li Fei-Fei, “Densecap: Fully Convolutional Localization Network for dense Captioning”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp。 0.79
4565–4574, 2016. 4565–4574, 2016. 0.84
[8] A. K. Bhunia, A. K. Bhunia, A. Sain, and P. P. Roy, “Improving document binarization via adversarial noisetexture augmentation,” in 2019 IEEE International Conference on Image Processing (ICIP), 2019, pp. A. K. Bhunia, A. K. Bhunia, A. Sain, P. P. Roy, “Improving document binarization through adversarial noisetexture augmentation” in 2019 IEEE International Conference on Image Processing (ICIP), 2019, pp. 0.84
2721– 2725. 2721– 2725. 0.94
[9] Olaf Ronneberger, Philipp Fischer, and Thomas Brox, “U-net: Convolutional networks for biomedical image segmentation,” 2015. 9] Olaf Ronneberger, Philipp Fischer, Thomas Brox, “U-net: Convolutional network for Biomedical image segmentation”, 2015 0.75
[10] I. Pratikakis, B. Gatos, and K. Ntirogiannis, “Icdar 2011 document image binarization contest (dibco 2011),” in 2011 International Conference on Document Analysis and Recognition, 2011, pp. I. Pratikakis, B. Gatos, K. Ntirogiannis, “Icdar 2011 document image binarization contest (dibco 2011)” in 2011 International Conference on Document Analysis and Recognition, 2011, pp. 0.79
1506–1510. 1506–1510. 0.71
[11] I. Pratikakis, B. Gatos, and K. Ntirogiannis, “Icdar 2013 document image binarization contest (dibco 2013),” in 2013 12th International Conference on Document Analysis and Recognition, 2013, pp. 第11回I. Pratikakis, B. Gatos, K. Ntirogiannis, “Icdar 2013 document image binarization contest (dibco 2013)” in 2013 12th International Conference on Document Analysis and Recognition, 2013 pp. 2013 0.85
1471–1476. 1471–1476. 0.71
5 5 0.85
           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。