論文の概要: Image Pre-processing on NumtaDB for Bengali Handwritten Digit
Recognition
- arxiv url: http://arxiv.org/abs/2008.07853v1
- Date: Tue, 18 Aug 2020 11:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 21:04:18.914066
- Title: Image Pre-processing on NumtaDB for Bengali Handwritten Digit
Recognition
- Title(参考訳): ベンガル手書きデジタル認識のためのNumtaDBの画像前処理
- Authors: Ovi Paul
- Abstract要約: NumtaDBはベンガル最大の手書き桁のデータ集合である。
本稿では,任意の機械学習モデルに対して精度の高い事前処理画像のベンチマークを求める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NumtaDB is by far the largest data-set collection for handwritten digits in
Bengali. This is a diverse dataset containing more than 85000 images. But this
diversity also makes this dataset very difficult to work with. The goal of this
paper is to find the benchmark for pre-processed images which gives good
accuracy on any machine learning models. The reason being, there are no
available pre-processed data for Bengali digit recognition to work with like
the English digits for MNIST.
- Abstract(参考訳): NumtaDBは、ベンガル最大の手書き桁のデータセットコレクションである。
これは85,000以上の画像を含む多様なデータセットである。
しかし、この多様性は、このデータセットを扱うのを非常に困難にします。
本稿の目的は,任意の機械学習モデルにおいて精度の高い事前処理画像のベンチマークを見つけることである。
理由は、ベンガルの数字認識のための事前処理されたデータは、MNISTの英語数字と同じように動作できないからだ。
関連論文リスト
- Beyond Language Models: Byte Models are Digital World Simulators [68.91268999567473]
bGPTは、デジタルワールドをシミュレートする次のバイト予測モデルである。
これは、テキスト、オーディオ、画像など、様々なモダリティにわたるパフォーマンスの特殊なモデルと一致している。
シンボリックな音楽データを変換する過程をほぼ完璧に再現し、1バイトあたり0.0011ビットの誤り率を達成した。
論文 参考訳(メタデータ) (2024-02-29T13:38:07Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Sampling and Ranking for Digital Ink Generation on a tight computational
budget [69.15275423815461]
トレーニングされたデジタルインク生成モデルの出力品質を最大化する方法について検討する。
我々は、デジタルインク領域におけるその種類に関する最初のアブレーション研究において、複数のサンプリングとランキング手法の効果を使用、比較する。
論文 参考訳(メタデータ) (2023-06-02T09:55:15Z) - CENSUS-HWR: a large training dataset for offline handwriting recognition [0.0]
CENSUS-HWRは、1,812,014のグレースケールの画像で完全な英語の手書き文字からなる新しいデータセットである。
このデータセットは、ディープラーニングアルゴリズムのベンチマークとして手書きモデルを提供することを意図している。
論文 参考訳(メタデータ) (2023-05-25T17:31:39Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Efficient approach of using CNN based pretrained model in Bangla
handwritten digit recognition [0.0]
手書き文字認識は、様々な産業において多くの応用に不可欠である。
形状、サイズ、書体スタイルの多様性でベンガル文字を書くのが複雑であるため、研究者はSupervisedの機械学習アルゴリズムを使って精度を向上できなかった。
Inception-v3, EfficientNetB0を含むCNNベースの手書き文字認識モデルを提案する。
論文 参考訳(メタデータ) (2022-09-19T15:58:53Z) - Writer Recognition Using Off-line Handwritten Single Block Characters [59.17685450892182]
我々は、生年月日DoBの6桁の個人番号を使用する。
本稿では,方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルによる深い特徴に基づく認識手法について検討する。
その結果,DoBでは手書き情報に同一性関連情報が6桁程度存在することがわかった。
論文 参考訳(メタデータ) (2022-01-25T23:04:10Z) - End-to-End Optical Character Recognition for Bengali Handwritten Words [0.0]
本稿では,Bengali言語のエンドツーエンドOCRシステムについて紹介する。
提案アーキテクチャは,手書きのベンガル語を手書きの単語画像から認識するエンド・ツー・エンド戦略を実装している。
論文 参考訳(メタデータ) (2021-05-09T20:48:56Z) - Iranis: A Large-scale Dataset of Farsi License Plate Characters [2.537406035246369]
本稿ではイランの自動車ナンバープレートで使用される数字と文字の画像を含む大規模データセットを提案する。
カメラ撮影角度、照明、解像度、コントラストのさまざまなインスタンスは、データセットをディープラーニングシステムのトレーニングに適した選択にします。
論文 参考訳(メタデータ) (2021-01-01T18:54:44Z) - MNIST-MIX: A Multi-language Handwritten Digit Recognition Dataset [5.780772209241294]
MNIST-Mixは、言語とデータサンプルの両方において、同じタイプの最大のデータセットである。
10の異なる言語から桁を導入することで、MNIST-Mixはより難しいデータセットになる。
MNIST をベースラインとして事前学習した LeNet モデルの適用結果を示す。
論文 参考訳(メタデータ) (2020-04-08T07:17:32Z) - Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。
データセットは、710対のソースイメージと対応する接地真理画像を含む。
このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文 参考訳(メタデータ) (2020-03-28T12:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。