論文の概要: HKR For Handwritten Kazakh & Russian Database
- arxiv url: http://arxiv.org/abs/2007.03579v2
- Date: Wed, 8 Jul 2020 16:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 20:09:38.868854
- Title: HKR For Handwritten Kazakh & Russian Database
- Title(参考訳): HKR for Handwriting Kazakh & Russian Database (英語)
- Authors: Daniyar Nurseitov, Kairat Bostanbekov, Daniyar Kurmankhojayev, Anel
Alimova, Abdelrahman Abdallah
- Abstract要約: オフライン手書き文字認識のための新しいロシア語とカザフ語データベース(ロシア語の95%とカザフ語/文の5%)を提示する。
データベースはキリル文字で書かれており、同じ33文字を共有している。
ディープラーニングと機械学習を使うことで、手書き認識タスクの分野の研究者に役立てることができる。
- 参考スコア(独自算出の注目度): 1.7499351967216341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new Russian and Kazakh database (with about 95%
of Russian and 5% of Kazakh words/sentences respectively) for offline
handwriting recognition. A few pre-processing and segmentation procedures have
been developed together with the database. The database is written in Cyrillic
and shares the same 33 characters. Besides these characters, the Kazakh
alphabet also contains 9 additional specific characters. This dataset is a
collection of forms. The sources of all the forms in the datasets were
generated by \LaTeX which subsequently was filled out by persons with their
handwriting. The database consists of more than 1400 filled forms. There are
approximately 63000 sentences, more than 715699 symbols produced by
approximately 200 different writers. It can serve researchers in the field of
handwriting recognition tasks by using deep and machine learning.
- Abstract(参考訳): 本稿では,オフライン手書き文字認識のための新しいロシア語とカザフ語データベース(ロシア語の95%,カザフ語/文の5%)を提案する。
データベースとともにいくつかの前処理と分割手順が開発されている。
データベースはキリル文字で書かれており、同じ33文字を共有している。
これらの文字に加えて、カザフ文字には9つの特別な文字が含まれている。
このデータセットはフォームのコレクションです。
データセット内のすべてのフォームのソースは \latex によって生成され、その後手書きの人物によって埋められた。
データベースは1400以上のフォームで構成されている。
約63,000の文があり、約200の異なる作家によって作られた715699以上の記号がある。
ディープラーニングと機械学習を使うことで、手書き認識タスクの分野で研究者に役立てることができる。
関連論文リスト
- Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - Recognition of Handwritten Japanese Characters Using Ensemble of
Convolutional Neural Networks [0.17646262965516946]
この研究は、手書き漢字の認識に3つの畳み込みニューラルネットワーク(CNN)のアンサンブルを用いた。
その結果,手書き文字認識のためのCNNアンサンブルアーキテクチャの有効性が示唆された。
論文 参考訳(メタデータ) (2023-06-06T18:30:51Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Writer Recognition Using Off-line Handwritten Single Block Characters [59.17685450892182]
我々は、生年月日DoBの6桁の個人番号を使用する。
本稿では,方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルによる深い特徴に基づく認識手法について検討する。
その結果,DoBでは手書き情報に同一性関連情報が6桁程度存在することがわかった。
論文 参考訳(メタデータ) (2022-01-25T23:04:10Z) - KOHTD: Kazakh Offline Handwritten Text Dataset [0.0]
広範囲にわたるカザフスタンのオフライン手書きテキストデータセット(KOHTD)を提案する。
KOHTDには3000枚の手書き試験用紙と140335枚以上の分割画像があり、約922010のシンボルがある。
我々は,CTC法や注意法など,単語・行認識に人気の高いテキスト認識手法を多用した。
論文 参考訳(メタデータ) (2021-09-22T16:19:38Z) - uTHCD: A New Benchmarking for Tamil Handwritten OCR [0.0]
データベースは約91000のサンプルからなり、156のクラスで600近いサンプルがある。
データベースは、オンラインとオフラインの両方のサンプルの統合コレクションである。
また,畳み込みニューラルネットワーク(cnn)のデータベースを用いて,試験データのベースライン精度88%の理想的な実験的な設定を行う。
論文 参考訳(メタデータ) (2021-03-13T10:34:08Z) - Classification of Handwritten Names of Cities and Handwritten Text
Recognition using Various Deep Learning Models [0.0]
我々は,手書き認識モデルの開発における近年の様々なアプローチと成果について述べる。
最初のモデルは、特徴抽出にディープ畳み込みニューラルネットワーク(CNN)、単語分類に完全に接続された多層パーセプトロンニューラルネットワーク(MLP)を使用する。
2つ目のモデルはSimpleHTRと呼ばれ、CNNとリカレントニューラルネットワーク(RNN)レイヤを使用して画像から情報を取り出す。
論文 参考訳(メタデータ) (2021-02-09T13:34:16Z) - Persian Handwritten Digit, Character and Word Recognition Using Deep
Learning [0.5188841610098436]
本稿では、深層ニューラルネットワークを様々なDensNetアーキテクチャやXceptionを通じて活用する。
我々はペルシャ語の特殊性と対応する筆跡を考慮に入れた光学的文字認識法を考案した。
HODAデータベースでは、数字と文字の認識率は99.72%と89.99%であり、数字、文字、単語の認識率は99.72%、98.32%、98.82%である。
論文 参考訳(メタデータ) (2020-10-24T11:42:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。