論文の概要: Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition
- arxiv url: http://arxiv.org/abs/2203.12165v1
- Date: Wed, 23 Mar 2022 03:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 07:58:00.944110
- Title: Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition
- Title(参考訳): amharic scene text detection and recognitionのための総合ベンチマークデータセット
- Authors: Wondimu Dikubab, Dingkang Liang, Minghui Liao, Xiang Bai
- Abstract要約: Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
- 参考スコア(独自算出の注目度): 56.048783994698425
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Ethiopic/Amharic script is one of the oldest African writing systems, which
serves at least 23 languages (e.g., Amharic, Tigrinya) in East Africa for more
than 120 million people. The Amharic writing system, Abugida, has 282
syllables, 15 punctuation marks, and 20 numerals. The Amharic syllabic matrix
is derived from 34 base graphemes/consonants by adding up to 12 appropriate
diacritics or vocalic markers to the characters. The syllables with a common
consonant or vocalic markers are likely to be visually similar and challenge
text recognition tasks. In this work, we presented the first comprehensive
public datasets named HUST-ART, HUST-AST, ABE, and Tana for Amharic script
detection and recognition in the natural scene. We have also conducted
extensive experiments to evaluate the performance of the state of art methods
in detecting and recognizing Amharic scene text on our datasets. The evaluation
results demonstrate the robustness of our datasets for benchmarking and its
potential of promoting the development of robust Amharic script detection and
recognition algorithms. Consequently, the outcome will benefit people in East
Africa, including diplomats from several countries and international
communities.
- Abstract(参考訳): Ethiopic/Amharicスクリプトはアフリカ最古の文字体系の一つで、少なくとも23の言語(アムハラ語、ティグリニア語など)を東アフリカで1億2000万人以上の人々に提供している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
Amharic syllabic matrixは、34塩基のグラテム/子音から派生し、文字に12個の適切な発音または発声マーカーを加える。
共通の子音や発声マーカーを持つ音節は視覚的に類似しており、テキスト認識タスクに挑戦する可能性がある。
本研究では,HUST-ART,HUST-AST,ABE,Tanaという,自然環境におけるアムハラ文字の検出と認識のための総合的な公開データセットについて紹介した。
また,我々のデータセット上でのアンハリックシーンテキストの検出と認識において,アート手法の現状を評価するための広範な実験を行った。
評価結果は、ベンチマークのためのデータセットの堅牢性と、堅牢なアムハラ文字検出および認識アルゴリズムの開発を促進する可能性を示す。
その結果、いくつかの国や国際社会の外交官を含む東アフリカの人々に利益をもたらすことになる。
関連論文リスト
- An open dataset for oracle bone script recognition and decipherment [68.33464571563293]
Oracle Bone Script (OBS) は、3000年前にさかのぼる上海王朝の人文と地理に関する貴重な洞察を持っている。
時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題が提示されている。
このデータセットは1,588個の解読されたスクリプトの77,064個の画像と9,411個の未解読文字の62,989個の画像を含んでいる。
論文 参考訳(メタデータ) (2024-01-27T09:54:16Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - A Benchmark and Dataset for Post-OCR text correction in Sanskrit [23.45279030301887]
サンスクリット語は古典言語であり、約3000万の写本がデジタル化に適合している。
我々は,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
論文 参考訳(メタデータ) (2022-11-15T08:32:18Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - A Large Multi-Target Dataset of Common Bengali Handwritten Graphemes [1.009810782568186]
そこで本稿では, 単語を線形に分割するラベリング手法を提案する。
データセットには、1295のユニークなベンガルグラフエムの411kのキュレートされたサンプルが含まれている。
このデータセットは、Kaggleの公開手書きグラフ分類チャレンジの一部として、オープンソースとして公開されている。
論文 参考訳(メタデータ) (2020-10-01T01:51:45Z) - Arabic Dialect Identification in the Wild [10.010733302895938]
国レベルのアラビア方言に属するつぶやきを自動的に収集するQADIを提案する。
このデータセットには、アラブ18カ国に均等に分散している2,525人のユーザーの540万のツイートが含まれている。
論文 参考訳(メタデータ) (2020-05-13T19:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。