論文の概要: Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition
- arxiv url: http://arxiv.org/abs/2203.12165v1
- Date: Wed, 23 Mar 2022 03:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 07:58:00.944110
- Title: Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition
- Title(参考訳): amharic scene text detection and recognitionのための総合ベンチマークデータセット
- Authors: Wondimu Dikubab, Dingkang Liang, Minghui Liao, Xiang Bai
- Abstract要約: Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
- 参考スコア(独自算出の注目度): 56.048783994698425
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Ethiopic/Amharic script is one of the oldest African writing systems, which
serves at least 23 languages (e.g., Amharic, Tigrinya) in East Africa for more
than 120 million people. The Amharic writing system, Abugida, has 282
syllables, 15 punctuation marks, and 20 numerals. The Amharic syllabic matrix
is derived from 34 base graphemes/consonants by adding up to 12 appropriate
diacritics or vocalic markers to the characters. The syllables with a common
consonant or vocalic markers are likely to be visually similar and challenge
text recognition tasks. In this work, we presented the first comprehensive
public datasets named HUST-ART, HUST-AST, ABE, and Tana for Amharic script
detection and recognition in the natural scene. We have also conducted
extensive experiments to evaluate the performance of the state of art methods
in detecting and recognizing Amharic scene text on our datasets. The evaluation
results demonstrate the robustness of our datasets for benchmarking and its
potential of promoting the development of robust Amharic script detection and
recognition algorithms. Consequently, the outcome will benefit people in East
Africa, including diplomats from several countries and international
communities.
- Abstract(参考訳): Ethiopic/Amharicスクリプトはアフリカ最古の文字体系の一つで、少なくとも23の言語(アムハラ語、ティグリニア語など)を東アフリカで1億2000万人以上の人々に提供している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
Amharic syllabic matrixは、34塩基のグラテム/子音から派生し、文字に12個の適切な発音または発声マーカーを加える。
共通の子音や発声マーカーを持つ音節は視覚的に類似しており、テキスト認識タスクに挑戦する可能性がある。
本研究では,HUST-ART,HUST-AST,ABE,Tanaという,自然環境におけるアムハラ文字の検出と認識のための総合的な公開データセットについて紹介した。
また,我々のデータセット上でのアンハリックシーンテキストの検出と認識において,アート手法の現状を評価するための広範な実験を行った。
評価結果は、ベンチマークのためのデータセットの堅牢性と、堅牢なアムハラ文字検出および認識アルゴリズムの開発を促進する可能性を示す。
その結果、いくつかの国や国際社会の外交官を含む東アフリカの人々に利益をもたらすことになる。
関連論文リスト
- KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。
この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文 参考訳(メタデータ) (2024-10-23T21:04:24Z) - Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Semantically Corrected Amharic Automatic Speech Recognition [27.569469583183423]
私たちはアフリカ東部で5000万人以上の人々が話しているアムハラ語のためのASRツールセットを構築しています。
既存のAmharic ASRテストデータセットの書き起こしを修正し、コミュニティが進捗を正確に評価できるようにする。
本稿では,トランスフォーマーエンコーダデコーダアーキテクチャを用いて,生のASR出力を文法的に完全かつ意味論的に意味のあるアムハラ語文に整理する後処理手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T12:08:00Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Arabic Dialect Identification in the Wild [10.010733302895938]
国レベルのアラビア方言に属するつぶやきを自動的に収集するQADIを提案する。
このデータセットには、アラブ18カ国に均等に分散している2,525人のユーザーの540万のツイートが含まれている。
論文 参考訳(メタデータ) (2020-05-13T19:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。