論文の概要: Improving Amharic Handwritten Word Recognition Using Auxiliary Task
- arxiv url: http://arxiv.org/abs/2202.12687v1
- Date: Fri, 25 Feb 2022 13:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 19:08:37.365376
- Title: Improving Amharic Handwritten Word Recognition Using Auxiliary Task
- Title(参考訳): 補助課題を用いた手書き文字認識の改良
- Authors: Mesay Samuel Gondere, Lars Schmidt-Thieme, Durga Prasad Sharma, Abiot
Sinamo Boltena
- Abstract要約: アムハラ語はエチオピアで最も広く使われている文学言語の一つである。
ディープラーニング技術は、エンドツーエンドで認識するために使われました。
- 参考スコア(独自算出の注目度): 4.635820333232681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Amharic is one of the official languages of the Federal Democratic Republic
of Ethiopia. It is one of the languages that use an Ethiopic script which is
derived from Gee'z, ancient and currently a liturgical language. Amharic is
also one of the most widely used literature-rich languages of Ethiopia. There
are very limited innovative and customized research works in Amharic optical
character recognition (OCR) in general and Amharic handwritten text recognition
in particular. In this study, Amharic handwritten word recognition will be
investigated. State-of-the-art deep learning techniques including convolutional
neural networks together with recurrent neural networks and connectionist
temporal classification (CTC) loss were used to make the recognition in an
end-to-end fashion. More importantly, an innovative way of complementing the
loss function using the auxiliary task from the row-wise similarities of the
Amharic alphabet was tested to show a significant recognition improvement over
a baseline method. Such findings will promote innovative problem-specific
solutions as well as will open insight to a generalized solution that emerges
from problem-specific domains.
- Abstract(参考訳): アマリ語はエチオピア連邦民主共和国の公用語の一つである。
エチオピック文字(Ethiopic script)を用いる言語の一つで、ゲエズ(Gee'z)から派生したもので、現在は典礼語となっている。
アムハラ語はエチオピアで最も広く使われている文学言語の一つである。
アムハーリック光学文字認識(ocr)や、特にアムハーリック手書き文字認識には、非常に限定された革新的でカスタマイズされた研究がある。
本研究では,アムハラ語手書き文字認識について検討する。
畳み込みニューラルネットワークやコネクショナリズム時間分類(CTC)の損失とともに、畳み込みニューラルネットワークを含む最先端のディープラーニング技術を用いて、エンドツーエンドの認識を実現した。
さらに,Amharicアルファベットの行順類似性から補助課題を用いて損失関数を補完する革新的な手法が試験され,ベースライン法よりも顕著な認識改善が示された。
このような発見は、イノベーティブな問題特化ソリューションを促進すると同時に、問題特化ドメインから生じる一般化したソリューションへの洞察を開放する。
関連論文リスト
- Learning based Ge'ez character handwritten recognition [7.699119649521884]
文化的・歴史的に重要な古代エチオピア文字であるゲエズは、筆跡認識研究においてほとんど無視されてきた。
畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)ネットワークを用いた手書き文字認識システムを開発した。
まず、CNNが個々の文字の認識を訓練し、LSTMに基づく単語認識システムのための特徴抽出器として機能する。
論文 参考訳(メタデータ) (2024-11-20T14:22:15Z) - Classifier identification in Ancient Egyptian as a low-resource sequence-labelling task [0.7237827208209208]
古代エジプト(AE)の書記体系は、グラテミック分類器(決定要因)の普及によって特徴づけられた
我々は,トレーニングデータの量が少なくても有望な性能を実現する一連のシーケンスラベリングニューラルモデルを実装した。
我々は、AEテキストの扱いから生じるトークン化と運用の問題について議論し、我々のアプローチを周波数ベースのベースラインと対比する。
論文 参考訳(メタデータ) (2024-06-29T15:40:25Z) - Leveraging Data Collection and Unsupervised Learning for Code-switched
Tunisian Arabic Automatic Speech Recognition [4.67385883375784]
本稿では,チュニジア方言に着目した自動音声認識(ASR)課題に焦点を当てた。
まず、テキストデータと音声データを収集し、場合によっては注釈を付ける。
第2に、チュニジアのさまざまなテストセットに最先端をプッシュするために、セルフスーパービジョン、セミスーパービジョン、および数ショットのコードスイッチングアプローチについて検討する。
第3に,従来の綴りの欠如を考慮し,テスト基準のスペルから発生する騒音を避けるために,転写文の人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-20T13:56:27Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Exhaustive Entity Recognition for Coptic: Challenges and Solutions [8.980876474818153]
本稿では,エジプトのヘレニズム時代の言語であるコプトの実体認識について述べる。
タスクに対するNLPアプローチを評価し、低リソースで形態学的に複雑な言語に適用することの難しさを概観する。
我々は,ウィキペディアにリンクするネスト付きエンティリティ認識と半自動エンティティを,頑健な依存関係解析,機能ベースのCRFモデル,手作りの知識ベースリソースに頼って,名前付きおよび名前なしのネスト付きエンティリティ認識と半自動エンティティのソリューションを提案する。
論文 参考訳(メタデータ) (2020-11-03T23:49:42Z) - Research on multi-dimensional end-to-end phrase recognition algorithm
based on background knowledge [4.020059842004492]
CPWDデータセットの実験では、背景知識を導入することにより、エンドツーエンドの手法の精度を1ポイント以上向上する。
この手法はCCL 2018の競技に応用され、中国のユーモア型認識において第一位を獲得した。
論文 参考訳(メタデータ) (2020-07-08T02:30:00Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。