Fugu-MT 論文翻訳(概要): Image Pre-processing on NumtaDB for Bengali Handwritten Digit Recognition

論文の概要: Image Pre-processing on NumtaDB for Bengali Handwritten Digit Recognition

arxiv url: http://arxiv.org/abs/2008.07853v1
Date: Tue, 18 Aug 2020 11:02:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-27 21:04:18.914066
Title: Image Pre-processing on NumtaDB for Bengali Handwritten Digit Recognition
Title（参考訳）: ベンガル手書きデジタル認識のためのNumtaDBの画像前処理
Authors: Ovi Paul
Abstract要約: NumtaDBはベンガル最大の手書き桁のデータ集合である。本稿では,任意の機械学習モデルに対して精度の高い事前処理画像のベンチマークを求める。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: NumtaDB is by far the largest data-set collection for handwritten digits in Bengali. This is a diverse dataset containing more than 85000 images. But this diversity also makes this dataset very difficult to work with. The goal of this paper is to find the benchmark for pre-processed images which gives good accuracy on any machine learning models. The reason being, there are no available pre-processed data for Bengali digit recognition to work with like the English digits for MNIST.
Abstract（参考訳）: NumtaDBは、ベンガル最大の手書き桁のデータセットコレクションである。これは85,000以上の画像を含む多様なデータセットである。しかし、この多様性は、このデータセットを扱うのを非常に困難にします。本稿の目的は,任意の機械学習モデルにおいて精度の高い事前処理画像のベンチマークを見つけることである。理由は、ベンガルの数字認識のための事前処理されたデータは、MNISTの英語数字と同じように動作できないからだ。

関連論文リスト

Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文参考訳（メタデータ） (2024-06-13T16:40:39Z)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳（メタデータ） (2024-06-12T17:01:04Z)
The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文参考訳（メタデータ） (2024-05-19T03:55:02Z)
Beyond Language Models: Byte Models are Digital World Simulators [68.91268999567473]
bGPTは、デジタルワールドをシミュレートする次のバイト予測モデルである。これは、テキスト、オーディオ、画像など、様々なモダリティにわたるパフォーマンスの特殊なモデルと一致している。シンボリックな音楽データを変換する過程をほぼ完璧に再現し、1バイトあたり0.0011ビットの誤り率を達成した。
論文参考訳（メタデータ） (2024-02-29T13:38:07Z)
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。 IDEFICSという名前の9～800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文参考訳（メタデータ） (2023-06-21T14:01:01Z)
CENSUS-HWR: a large training dataset for offline handwriting recognition [0.0]
CENSUS-HWRは、1,812,014のグレースケールの画像で完全な英語の手書き文字からなる新しいデータセットである。このデータセットは、ディープラーニングアルゴリズムのベンチマークとして手書きモデルを提供することを意図している。
論文参考訳（メタデータ） (2023-05-25T17:31:39Z)
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。 LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文参考訳（メタデータ） (2023-02-02T06:38:44Z)
Efficient approach of using CNN based pretrained model in Bangla handwritten digit recognition [0.0]
手書き文字認識は、様々な産業において多くの応用に不可欠である。形状、サイズ、書体スタイルの多様性でベンガル文字を書くのが複雑であるため、研究者はSupervisedの機械学習アルゴリズムを使って精度を向上できなかった。 Inception-v3, EfficientNetB0を含むCNNベースの手書き文字認識モデルを提案する。
論文参考訳（メタデータ） (2022-09-19T15:58:53Z)
End-to-End Optical Character Recognition for Bengali Handwritten Words [0.0]
本稿では,Bengali言語のエンドツーエンドOCRシステムについて紹介する。提案アーキテクチャは,手書きのベンガル語を手書きの単語画像から認識するエンド・ツー・エンド戦略を実装している。
論文参考訳（メタデータ） (2021-05-09T20:48:56Z)
Iranis: A Large-scale Dataset of Farsi License Plate Characters [2.537406035246369]
本稿ではイランの自動車ナンバープレートで使用される数字と文字の画像を含む大規模データセットを提案する。カメラ撮影角度、照明、解像度、コントラストのさまざまなインスタンスは、データセットをディープラーニングシステムのトレーニングに適した選択にします。
論文参考訳（メタデータ） (2021-01-01T18:54:44Z)
MNIST-MIX: A Multi-language Handwritten Digit Recognition Dataset [5.780772209241294]
MNIST-Mixは、言語とデータサンプルの両方において、同じタイプの最大のデータセットである。 10の異なる言語から桁を導入することで、MNIST-Mixはより難しいデータセットになる。 MNIST をベースラインとして事前学習した LeNet モデルの適用結果を示す。
論文参考訳（メタデータ） (2020-04-08T07:17:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。