論文の概要: MDIW-13: a New Multi-Lingual and Multi-Script Database and Benchmark for Script Identification
- arxiv url: http://arxiv.org/abs/2405.18924v1
- Date: Wed, 29 May 2024 09:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:49:44.177655
- Title: MDIW-13: a New Multi-Lingual and Multi-Script Database and Benchmark for Script Identification
- Title(参考訳): MDIW-13: スクリプト識別のための新しい多言語・多スクリプトデータベースとベンチマーク
- Authors: Miguel A. Ferrer, Abhijit Das, Moises Diaz, Aythami Morales, Cristina Carmona-Duarte, Umapada Pal,
- Abstract要約: 本稿では,スクリプト識別アルゴリズムのベンチマークのための新しいデータベースを提供する。
データセットは、地元の新聞や手書きの手紙からスキャンされた1,135件の文書と、異なるネイティブライターのメモで構成されている。
簡単なベンチマークは、手作りとディープラーニングの手法で提案されている。
- 参考スコア(独自算出の注目度): 19.021909090693505
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Script identification plays a vital role in applications that involve handwriting and document analysis within a multi-script and multi-lingual environment. Moreover, it exhibits a profound connection with human cognition. This paper provides a new database for benchmarking script identification algorithms, which contains both printed and handwritten documents collected from a wide variety of scripts, such as Arabic, Bengali (Bangla), Gujarati, Gurmukhi, Devanagari, Japanese, Kannada, Malayalam, Oriya, Roman, Tamil, Telugu, and Thai. The dataset consists of 1,135 documents scanned from local newspaper and handwritten letters as well as notes from different native writers. Further, these documents are segmented into lines and words, comprising a total of 13,979 and 86,655 lines and words, respectively, in the dataset. Easy-to-go benchmarks are proposed with handcrafted and deep learning methods. The benchmark includes results at the document, line, and word levels with printed and handwritten documents. Results of script identification independent of the document/line/word level and independent of the printed/handwritten letters are also given. The new multi-lingual database is expected to create new script identifiers, present various challenges, including identifying handwritten and printed samples and serve as a foundation for future research in script identification based on the reported results of the three benchmarks.
- Abstract(参考訳): スクリプト識別は、多言語および多言語環境において、手書きと文書解析を含むアプリケーションにおいて重要な役割を果たす。
また、人間の認知と深く結びついている。
本稿では,アラビア文字,ベンガル文字,グジャラート文字,グルムクヒ文字,デバナガリ文字,日本語,カナダ文字,マラヤラム文字,オリヤ文字,ローマ文字,タミル文字,テルグ文字,タイ文字など,多種多様なスクリプトから収集された文書をベンチマークする。
データセットは、地元の新聞や手書きの手紙からスキャンされた1,135件の文書と、異なるネイティブライターのメモで構成されている。
さらに、これらの文書は、それぞれデータセットにおいて合計13,979行と86,655行からなる行と単語に区分される。
簡単なベンチマークは、手作りとディープラーニングの手法で提案されている。
ベンチマークには、文書、行、単語レベルの結果と、印刷および手書きの文書が含まれている。
また、文書/行/ワードレベルに依存しず、印刷/手書き文字に依存しないスクリプト識別の結果も与えられる。
新しい多言語データベースは、新しいスクリプト識別子を作成することが期待されており、手書きおよび印刷されたサンプルの識別や、3つのベンチマークの報告された結果に基づいて、将来のスクリプト識別研究の基盤となる様々な課題が提示される。
関連論文リスト
- Nuremberg Letterbooks: A Multi-Transcriptional Dataset of Early 15th Century Manuscripts for Document Analysis [4.660229623034816]
ニュルンベルク・レターブックス・データセットは15世紀初頭の史料である。
データセットには、1711のラベル付きページを含む4冊の書籍が含まれている。
論文 参考訳(メタデータ) (2024-11-11T17:08:40Z) - Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。
いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。
単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文 参考訳(メタデータ) (2024-06-25T19:23:42Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - uTHCD: A New Benchmarking for Tamil Handwritten OCR [0.0]
データベースは約91000のサンプルからなり、156のクラスで600近いサンプルがある。
データベースは、オンラインとオフラインの両方のサンプルの統合コレクションである。
また,畳み込みニューラルネットワーク(cnn)のデータベースを用いて,試験データのベースライン精度88%の理想的な実験的な設定を行う。
論文 参考訳(メタデータ) (2021-03-13T10:34:08Z) - Persian Handwritten Digit, Character and Word Recognition Using Deep
Learning [0.5188841610098436]
本稿では、深層ニューラルネットワークを様々なDensNetアーキテクチャやXceptionを通じて活用する。
我々はペルシャ語の特殊性と対応する筆跡を考慮に入れた光学的文字認識法を考案した。
HODAデータベースでは、数字と文字の認識率は99.72%と89.99%であり、数字、文字、単語の認識率は99.72%、98.32%、98.82%である。
論文 参考訳(メタデータ) (2020-10-24T11:42:28Z) - Handwritten Script Identification from Text Lines [38.1188690493442]
テキスト行レベルで手書き文書からスクリプトを識別する頑健な手法を提案する。
チェインコードヒストグラム(CCH)と離散フーリエ変換(DFT)を用いて抽出した特徴に基づく。
提案手法は、グジャラート、カンナダ、マラヤラム、オリヤ、タミル、テルグ、ウルドゥーの7文字で書かれた800行の手書きのテキストに対して、ローマ文字とともに実験されている。
論文 参考訳(メタデータ) (2020-09-16T02:43:24Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。