論文の概要: Image Pre-processing on NumtaDB for Bengali Handwritten Digit
Recognition
- arxiv url: http://arxiv.org/abs/2008.07853v1
- Date: Tue, 18 Aug 2020 11:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 21:04:18.914066
- Title: Image Pre-processing on NumtaDB for Bengali Handwritten Digit
Recognition
- Title(参考訳): ベンガル手書きデジタル認識のためのNumtaDBの画像前処理
- Authors: Ovi Paul
- Abstract要約: NumtaDBはベンガル最大の手書き桁のデータ集合である。
本稿では,任意の機械学習モデルに対して精度の高い事前処理画像のベンチマークを求める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NumtaDB is by far the largest data-set collection for handwritten digits in
Bengali. This is a diverse dataset containing more than 85000 images. But this
diversity also makes this dataset very difficult to work with. The goal of this
paper is to find the benchmark for pre-processed images which gives good
accuracy on any machine learning models. The reason being, there are no
available pre-processed data for Bengali digit recognition to work with like
the English digits for MNIST.
- Abstract(参考訳): NumtaDBは、ベンガル最大の手書き桁のデータセットコレクションである。
これは85,000以上の画像を含む多様なデータセットである。
しかし、この多様性は、このデータセットを扱うのを非常に困難にします。
本稿の目的は,任意の機械学習モデルにおいて精度の高い事前処理画像のベンチマークを見つけることである。
理由は、ベンガルの数字認識のための事前処理されたデータは、MNISTの英語数字と同じように動作できないからだ。
関連論文リスト
- Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Beyond Language Models: Byte Models are Digital World Simulators [68.91268999567473]
bGPTは、デジタルワールドをシミュレートする次のバイト予測モデルである。
これは、テキスト、オーディオ、画像など、様々なモダリティにわたるパフォーマンスの特殊なモデルと一致している。
シンボリックな音楽データを変換する過程をほぼ完璧に再現し、1バイトあたり0.0011ビットの誤り率を達成した。
論文 参考訳(メタデータ) (2024-02-29T13:38:07Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - CENSUS-HWR: a large training dataset for offline handwriting recognition [0.0]
CENSUS-HWRは、1,812,014のグレースケールの画像で完全な英語の手書き文字からなる新しいデータセットである。
このデータセットは、ディープラーニングアルゴリズムのベンチマークとして手書きモデルを提供することを意図している。
論文 参考訳(メタデータ) (2023-05-25T17:31:39Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Efficient approach of using CNN based pretrained model in Bangla
handwritten digit recognition [0.0]
手書き文字認識は、様々な産業において多くの応用に不可欠である。
形状、サイズ、書体スタイルの多様性でベンガル文字を書くのが複雑であるため、研究者はSupervisedの機械学習アルゴリズムを使って精度を向上できなかった。
Inception-v3, EfficientNetB0を含むCNNベースの手書き文字認識モデルを提案する。
論文 参考訳(メタデータ) (2022-09-19T15:58:53Z) - End-to-End Optical Character Recognition for Bengali Handwritten Words [0.0]
本稿では,Bengali言語のエンドツーエンドOCRシステムについて紹介する。
提案アーキテクチャは,手書きのベンガル語を手書きの単語画像から認識するエンド・ツー・エンド戦略を実装している。
論文 参考訳(メタデータ) (2021-05-09T20:48:56Z) - Iranis: A Large-scale Dataset of Farsi License Plate Characters [2.537406035246369]
本稿ではイランの自動車ナンバープレートで使用される数字と文字の画像を含む大規模データセットを提案する。
カメラ撮影角度、照明、解像度、コントラストのさまざまなインスタンスは、データセットをディープラーニングシステムのトレーニングに適した選択にします。
論文 参考訳(メタデータ) (2021-01-01T18:54:44Z) - MNIST-MIX: A Multi-language Handwritten Digit Recognition Dataset [5.780772209241294]
MNIST-Mixは、言語とデータサンプルの両方において、同じタイプの最大のデータセットである。
10の異なる言語から桁を導入することで、MNIST-Mixはより難しいデータセットになる。
MNIST をベースラインとして事前学習した LeNet モデルの適用結果を示す。
論文 参考訳(メタデータ) (2020-04-08T07:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。