論文の概要: uTHCD: A New Benchmarking for Tamil Handwritten OCR
- arxiv url: http://arxiv.org/abs/2103.07676v1
- Date: Sat, 13 Mar 2021 10:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:12:59.949034
- Title: uTHCD: A New Benchmarking for Tamil Handwritten OCR
- Title(参考訳): uTHCD: タミル手書きOCRの新しいベンチマーク
- Authors: Noushath Shaffi, Faizal Hajamohideen
- Abstract要約: データベースは約91000のサンプルからなり、156のクラスで600近いサンプルがある。
データベースは、オンラインとオフラインの両方のサンプルの統合コレクションである。
また,畳み込みニューラルネットワーク(cnn)のデータベースを用いて,試験データのベースライン精度88%の理想的な実験的な設定を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten character recognition is a challenging research in the field of
document image analysis over many decades due to numerous reasons such as large
writing styles variation, inherent noise in data, expansive applications it
offers, non-availability of benchmark databases etc. There has been
considerable work reported in literature about creation of the database for
several Indic scripts but the Tamil script is still in its infancy as it has
been reported only in one database [5]. In this paper, we present the work done
in the creation of an exhaustive and large unconstrained Tamil Handwritten
Character Database (uTHCD). Database consists of around 91000 samples with
nearly 600 samples in each of 156 classes. The database is a unified collection
of both online and offline samples. Offline samples were collected by asking
volunteers to write samples on a form inside a specified grid. For online
samples, we made the volunteers write in a similar grid using a digital writing
pad. The samples collected encompass a vast variety of writing styles, inherent
distortions arising from offline scanning process viz stroke discontinuity,
variable thickness of stroke, distortion etc. Algorithms which are resilient to
such data can be practically deployed for real time applications. The samples
were generated from around 650 native Tamil volunteers including school going
kids, homemakers, university students and faculty. The isolated character
database will be made publicly available as raw images and Hierarchical Data
File (HDF) compressed file. With this database, we expect to set a new
benchmark in Tamil handwritten character recognition and serve as a launchpad
for many avenues in document image analysis domain. Paper also presents an
ideal experimental set-up using the database on convolutional neural networks
(CNN) with a baseline accuracy of 88% on test data.
- Abstract(参考訳): 手書き文字認識は文書画像解析の分野で数十年にわたって挑戦的な研究であり、大きな書き込みスタイルの変化、データ固有のノイズ、それが提供する拡張性のあるアプリケーション、ベンチマークデータベースの非使用性など多くの理由がある。
いくつかのIndicスクリプトのデータベース作成に関する文献ではかなりの研究が報告されているが、Tamilスクリプトは1つのデータベースにのみ報告されているため、まだ初期段階にある。
本稿では,完全かつ大規模に制約のないタミル手書き文字データベース(uthcd)の作成作業について述べる。
データベースは約91000のサンプルからなり、156のクラスで600近いサンプルがある。
データベースはオンラインとオフラインの両方のサンプルの統合コレクションである。
オフラインサンプルは、ボランティアに特定のグリッド内のフォームにサンプルを書くように依頼することで収集された。
オンラインサンプルでは、ボランティアにデジタルライティングパッドを使って同様のグリッドを書かせました。
収集されたサンプルには、オフラインスキャンプロセスのビズストローク不連続性、ストロークの変動厚さ、歪みなど、さまざまな書き込みスタイルが含まれている。
このようなデータに耐性のあるアルゴリズムは、リアルタイムアプリケーションに事実上デプロイできる。
サンプルは、学校に行く子供たち、ホームメイカー、大学生、教員を含む約650人のタミル人ボランティアから得られた。
分離された文字データベースは、生画像と階層データファイル(HDF)圧縮ファイルとして公開されます。
このデータベースでは、タミル手書き文字認識の新しいベンチマークを設定し、文書画像解析ドメインの多くの分野のローンチパッドとして機能することを期待する。
また,畳み込みニューラルネットワーク(cnn)のデータベースを用いて,試験データのベースライン精度88%の理想的な実験的な設定を行う。
関連論文リスト
- Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts [65.10991154918737]
本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。
我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。
学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
論文 参考訳(メタデータ) (2024-09-02T07:42:55Z) - MDIW-13: a New Multi-Lingual and Multi-Script Database and Benchmark for Script Identification [19.021909090693505]
本稿では,スクリプト識別アルゴリズムのベンチマークのための新しいデータベースを提供する。
データセットは、地元の新聞や手書きの手紙からスキャンされた1,135件の文書と、異なるネイティブライターのメモで構成されている。
簡単なベンチマークは、手作りとディープラーニングの手法で提案されている。
論文 参考訳(メタデータ) (2024-05-29T09:29:09Z) - TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming [21.88026116276415]
テキスト検出はコンピュータビジョン(CV)分野における課題である
テキスト検出には単語レベルのラベル付きデータが不足しており、特に多言語設定やインドのスクリプトではそうである。
データプログラミングベースのアプローチであるTEXTRONを提案し、ユーザは様々なテキスト検出方法を弱い監督ベースの学習フレームワークにプラグインできる。
論文 参考訳(メタデータ) (2024-02-15T09:18:18Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla
Handwritten Text Recognition (HTR) and Line Segmentation [0.0]
我々は,単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。
BN-HTRdデータセットはBBC Bangla News corpusに基づいている。
私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。
論文 参考訳(メタデータ) (2022-05-29T22:56:26Z) - Writer Recognition Using Off-line Handwritten Single Block Characters [59.17685450892182]
我々は、生年月日DoBの6桁の個人番号を使用する。
本稿では,方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルによる深い特徴に基づく認識手法について検討する。
その結果,DoBでは手書き情報に同一性関連情報が6桁程度存在することがわかった。
論文 参考訳(メタデータ) (2022-01-25T23:04:10Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Persian Handwritten Digit, Character and Word Recognition Using Deep
Learning [0.5188841610098436]
本稿では、深層ニューラルネットワークを様々なDensNetアーキテクチャやXceptionを通じて活用する。
我々はペルシャ語の特殊性と対応する筆跡を考慮に入れた光学的文字認識法を考案した。
HODAデータベースでは、数字と文字の認識率は99.72%と89.99%であり、数字、文字、単語の認識率は99.72%、98.32%、98.82%である。
論文 参考訳(メタデータ) (2020-10-24T11:42:28Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。