論文の概要: HKR For Handwritten Kazakh & Russian Database
- arxiv url: http://arxiv.org/abs/2007.03579v2
- Date: Wed, 8 Jul 2020 16:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 20:09:38.868854
- Title: HKR For Handwritten Kazakh & Russian Database
- Title(参考訳): HKR for Handwriting Kazakh & Russian Database (英語)
- Authors: Daniyar Nurseitov, Kairat Bostanbekov, Daniyar Kurmankhojayev, Anel
Alimova, Abdelrahman Abdallah
- Abstract要約: オフライン手書き文字認識のための新しいロシア語とカザフ語データベース(ロシア語の95%とカザフ語/文の5%)を提示する。
データベースはキリル文字で書かれており、同じ33文字を共有している。
ディープラーニングと機械学習を使うことで、手書き認識タスクの分野の研究者に役立てることができる。
- 参考スコア(独自算出の注目度): 1.7499351967216341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new Russian and Kazakh database (with about 95%
of Russian and 5% of Kazakh words/sentences respectively) for offline
handwriting recognition. A few pre-processing and segmentation procedures have
been developed together with the database. The database is written in Cyrillic
and shares the same 33 characters. Besides these characters, the Kazakh
alphabet also contains 9 additional specific characters. This dataset is a
collection of forms. The sources of all the forms in the datasets were
generated by \LaTeX which subsequently was filled out by persons with their
handwriting. The database consists of more than 1400 filled forms. There are
approximately 63000 sentences, more than 715699 symbols produced by
approximately 200 different writers. It can serve researchers in the field of
handwriting recognition tasks by using deep and machine learning.
- Abstract(参考訳): 本稿では,オフライン手書き文字認識のための新しいロシア語とカザフ語データベース(ロシア語の95%,カザフ語/文の5%)を提案する。
データベースとともにいくつかの前処理と分割手順が開発されている。
データベースはキリル文字で書かれており、同じ33文字を共有している。
これらの文字に加えて、カザフ文字には9つの特別な文字が含まれている。
このデータセットはフォームのコレクションです。
データセット内のすべてのフォームのソースは \latex によって生成され、その後手書きの人物によって埋められた。
データベースは1400以上のフォームで構成されている。
約63,000の文があり、約200の異なる作家によって作られた715699以上の記号がある。
ディープラーニングと機械学習を使うことで、手書き認識タスクの分野で研究者に役立てることができる。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts [65.10991154918737]
本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。
我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。
学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
論文 参考訳(メタデータ) (2024-09-02T07:42:55Z) - Khayyam Offline Persian Handwriting Dataset [0.0]
Khayyamデータセットは、ペルシア語の要素(単語、文、文字、数字)について、制約のない別の大きな手書きデータセットとして提示する。
カヤムのデータセットには44000語、60000文字、6000桁が含まれている。
データセットの適用性を示すために、数字、文字、単語データに基づいて機械学習アルゴリズムを訓練し、結果を報告する。
論文 参考訳(メタデータ) (2024-06-03T06:17:21Z) - Recognition of Handwritten Japanese Characters Using Ensemble of
Convolutional Neural Networks [0.17646262965516946]
この研究は、手書き漢字の認識に3つの畳み込みニューラルネットワーク(CNN)のアンサンブルを用いた。
その結果,手書き文字認識のためのCNNアンサンブルアーキテクチャの有効性が示唆された。
論文 参考訳(メタデータ) (2023-06-06T18:30:51Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Writer Recognition Using Off-line Handwritten Single Block Characters [59.17685450892182]
我々は、生年月日DoBの6桁の個人番号を使用する。
本稿では,方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルによる深い特徴に基づく認識手法について検討する。
その結果,DoBでは手書き情報に同一性関連情報が6桁程度存在することがわかった。
論文 参考訳(メタデータ) (2022-01-25T23:04:10Z) - KOHTD: Kazakh Offline Handwritten Text Dataset [0.0]
広範囲にわたるカザフスタンのオフライン手書きテキストデータセット(KOHTD)を提案する。
KOHTDには3000枚の手書き試験用紙と140335枚以上の分割画像があり、約922010のシンボルがある。
我々は,CTC法や注意法など,単語・行認識に人気の高いテキスト認識手法を多用した。
論文 参考訳(メタデータ) (2021-09-22T16:19:38Z) - uTHCD: A New Benchmarking for Tamil Handwritten OCR [0.0]
データベースは約91000のサンプルからなり、156のクラスで600近いサンプルがある。
データベースは、オンラインとオフラインの両方のサンプルの統合コレクションである。
また,畳み込みニューラルネットワーク(cnn)のデータベースを用いて,試験データのベースライン精度88%の理想的な実験的な設定を行う。
論文 参考訳(メタデータ) (2021-03-13T10:34:08Z) - Classification of Handwritten Names of Cities and Handwritten Text
Recognition using Various Deep Learning Models [0.0]
我々は,手書き認識モデルの開発における近年の様々なアプローチと成果について述べる。
最初のモデルは、特徴抽出にディープ畳み込みニューラルネットワーク(CNN)、単語分類に完全に接続された多層パーセプトロンニューラルネットワーク(MLP)を使用する。
2つ目のモデルはSimpleHTRと呼ばれ、CNNとリカレントニューラルネットワーク(RNN)レイヤを使用して画像から情報を取り出す。
論文 参考訳(メタデータ) (2021-02-09T13:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。