論文の概要: HDIB1M -- Handwritten Document Image Binarization 1 Million Dataset
- arxiv url: http://arxiv.org/abs/2101.11674v1
- Date: Wed, 27 Jan 2021 20:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 02:53:19.997797
- Title: HDIB1M -- Handwritten Document Image Binarization 1 Million Dataset
- Title(参考訳): HDIB1M -- 手書き文書画像バイナライゼーション100万データセット
- Authors: Kaustubh Sadekar, Prajwal Singh, Shanmuganathan Raman
- Abstract要約: 1M画像の文書画像ビナライズデータセットであるHDIB1Mを提案する。
データセットの有効性を示すために、データセット上で深層学習モデルUNetEDをトレーニングし、他の公開データセットのパフォーマンスを評価する。
データセットとコードは、コミュニティで利用可能になる。
- 参考スコア(独自算出の注目度): 24.299931323012757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten document image binarization is a challenging task due to high
diversity in the content, page style, and condition of the documents. While the
traditional thresholding methods fail to generalize on such challenging
scenarios, deep learning based methods can generalize well however, require a
large training data. Current datasets for handwritten document image
binarization are limited in size and fail to represent several challenging
real-world scenarios. To solve this problem, we propose HDIB1M - a handwritten
document image binarization dataset of 1M images. We also present a novel
method used to generate this dataset. To show the effectiveness of our dataset
we train a deep learning model UNetED on our dataset and evaluate its
performance on other publicly available datasets. The dataset and the code will
be made available to the community.
- Abstract(参考訳): 手書きの文書画像のバイナライゼーションは、文書の内容、ページスタイル、および条件の多様性が高いため、困難な作業です。
従来のしきい値化手法は、このような困難なシナリオでは一般化できないが、ディープラーニングベースのメソッドは、大規模なトレーニングデータを必要とする。
手書きのドキュメントイメージバイナライゼーションのための現在のデータセットは、サイズに制限があり、いくつかの困難な現実のシナリオを表現できません。
そこで本研究では,1M画像の文書画像ビナライゼーションデータセットであるHDIB1Mを提案する。
また,このデータセットの生成に用いる新しい手法を提案する。
データセットの有効性を示すために、データセット上で深層学習モデルUNetEDをトレーニングし、他の公開データセットのパフォーマンスを評価する。
データセットとコードは、コミュニティで利用可能になる。
関連論文リスト
- Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - A Fair Evaluation of Various Deep Learning-Based Document Image
Binarization Approaches [5.393847875065119]
文書画像のバイナリ化は、文書解析の分野における重要な前処理ステップである。
深層学習技術は、文脈に依存した特徴を学習することで、画像のバイナライズされたバージョンを生成することができる。
本研究は,同じ評価プロトコル下での異なる深層学習手法の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-22T10:42:51Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Weakly Supervised Annotations for Multi-modal Greeting Cards Dataset [8.397847537464534]
我々は,Greeting Cardsデータセットから抽象的な視覚概念を学ぶために,事前訓練された画像とテキスト埋め込みから特徴を集約することを提案する。
提案したデータセットは、事前訓練されたテキスト・ツー・イメージ生成モデルを用いて、挨拶カード画像を生成するのにも有用である。
論文 参考訳(メタデータ) (2022-12-01T20:07:52Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。