Fugu-MT 論文翻訳(概要): Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition

論文の概要: Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition

arxiv url: http://arxiv.org/abs/2203.12165v1
Date: Wed, 23 Mar 2022 03:19:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-25 07:58:00.944110
Title: Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition
Title（参考訳）: amharic scene text detection and recognitionのための総合ベンチマークデータセット
Authors: Wondimu Dikubab, Dingkang Liang, Minghui Liao, Xiang Bai
Abstract要約: Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
参考スコア（独自算出の注目度）: 56.048783994698425
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Ethiopic/Amharic script is one of the oldest African writing systems, which serves at least 23 languages (e.g., Amharic, Tigrinya) in East Africa for more than 120 million people. The Amharic writing system, Abugida, has 282 syllables, 15 punctuation marks, and 20 numerals. The Amharic syllabic matrix is derived from 34 base graphemes/consonants by adding up to 12 appropriate diacritics or vocalic markers to the characters. The syllables with a common consonant or vocalic markers are likely to be visually similar and challenge text recognition tasks. In this work, we presented the first comprehensive public datasets named HUST-ART, HUST-AST, ABE, and Tana for Amharic script detection and recognition in the natural scene. We have also conducted extensive experiments to evaluate the performance of the state of art methods in detecting and recognizing Amharic scene text on our datasets. The evaluation results demonstrate the robustness of our datasets for benchmarking and its potential of promoting the development of robust Amharic script detection and recognition algorithms. Consequently, the outcome will benefit people in East Africa, including diplomats from several countries and international communities.
Abstract（参考訳）: Ethiopic/Amharicスクリプトはアフリカ最古の文字体系の一つで、少なくとも23の言語(アムハラ語、ティグリニア語など)を東アフリカで1億2000万人以上の人々に提供している。アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 Amharic syllabic matrixは、34塩基のグラテム/子音から派生し、文字に12個の適切な発音または発声マーカーを加える。共通の子音や発声マーカーを持つ音節は視覚的に類似しており、テキスト認識タスクに挑戦する可能性がある。本研究では,HUST-ART,HUST-AST,ABE,Tanaという,自然環境におけるアムハラ文字の検出と認識のための総合的な公開データセットについて紹介した。また,我々のデータセット上でのアンハリックシーンテキストの検出と認識において,アート手法の現状を評価するための広範な実験を行った。評価結果は、ベンチマークのためのデータセットの堅牢性と、堅牢なアムハラ文字検出および認識アルゴリズムの開発を促進する可能性を示す。その結果、いくつかの国や国際社会の外交官を含む東アフリカの人々に利益をもたらすことになる。

関連論文リスト

SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection [76.18321723846616]
タスクは7つの異なる言語ファミリーから30以上の言語をカバーしている。データインスタンスは6つの感情クラスでマルチラベルされており、感情の強さに注釈を付けた11言語にデータセットが追加されている。参加者は, (a) マルチラベル感情検出, (b) 感情強度スコア検出, (c) 言語間感情検出の3つのトラックでラベルの予測を依頼された。
論文参考訳（メタデータ） (2025-03-10T12:49:31Z)
KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文参考訳（メタデータ） (2024-10-23T21:04:24Z)
Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文参考訳（メタデータ） (2024-10-11T09:59:48Z)
The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文参考訳（メタデータ） (2024-05-19T03:55:02Z)
Semantically Corrected Amharic Automatic Speech Recognition [27.569469583183423]
私たちはアフリカ東部で5000万人以上の人々が話しているアムハラ語のためのASRツールセットを構築しています。既存のAmharic ASRテストデータセットの書き起こしを修正し、コミュニティが進捗を正確に評価できるようにする。本稿では,トランスフォーマーエンコーダデコーダアーキテクチャを用いて,生のASR出力を文法的に完全かつ意味論的に意味のあるアムハラ語文に整理する後処理手法を提案する。
論文参考訳（メタデータ） (2024-04-20T12:08:00Z)
AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文参考訳（メタデータ） (2023-02-17T15:40:12Z)
ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文参考訳（メタデータ） (2022-09-06T22:48:29Z)
Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文参考訳（メタデータ） (2022-01-10T06:36:43Z)
Phoneme Recognition through Fine Tuning of Phonetic Representations: a Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文参考訳（メタデータ） (2021-04-04T15:07:55Z)
Arabic Dialect Identification in the Wild [10.010733302895938]
国レベルのアラビア方言に属するつぶやきを自動的に収集するQADIを提案する。このデータセットには、アラブ18カ国に均等に分散している2,525人のユーザーの540万のツイートが含まれている。
論文参考訳（メタデータ） (2020-05-13T19:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。