論文の概要: Optical Character Recognition and Transcription of Berber Signs from
Images in a Low-Resource Language Amazigh
- arxiv url: http://arxiv.org/abs/2303.13549v1
- Date: Tue, 21 Mar 2023 21:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 16:27:46.782682
- Title: Optical Character Recognition and Transcription of Berber Signs from
Images in a Low-Resource Language Amazigh
- Title(参考訳): 低音源言語Amazighにおける画像からのベル符号の光学的文字認識と転写
- Authors: Levi Corallo and Aparna S. Varde
- Abstract要約: バーバー語族(英: Berber language)またはアマージー語族(英: Amazigh language family)は、北アフリカ原住民の言語である。
独自のアルファベットはティフィナグ(Tifinagh)と呼ばれ、モロッコ、アルジェリアなどのベルベルのコミュニティで使用されている。
Afroasiatic Language Berberは1400万人が話しているが、教育、研究、Webアプリケーションなどには十分な表現がない。
- 参考スコア(独自算出の注目度): 2.132096006921048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Berber, or Amazigh language family is a low-resource North African
vernacular language spoken by the indigenous Berber ethnic group. It has its
own unique alphabet called Tifinagh used across Berber communities in Morocco,
Algeria, and others. The Afroasiatic language Berber is spoken by 14 million
people, yet lacks adequate representation in education, research, web
applications etc. For instance, there is no option of translation to or from
Amazigh / Berber on Google Translate, which hosts over 100 languages today.
Consequently, we do not find specialized educational apps, L2 (2nd language
learner) acquisition, automated language translation, and remote-access
facilities enabled in Berber. Motivated by this background, we propose a
supervised approach called DaToBS for Detection and Transcription of Berber
Signs. The DaToBS approach entails the automatic recognition and transcription
of Tifinagh characters from signs in photographs of natural environments. This
is achieved by self-creating a corpus of 1862 pre-processed character images;
curating the corpus with human-guided annotation; and feeding it into an OCR
model via the deployment of CNN for deep learning based on computer vision
models. We deploy computer vision modeling (rather than language models)
because there are pictorial symbols in this alphabet, this deployment being a
novel aspect of our work. The DaToBS experimentation and analyses yield over 92
percent accuracy in our research. To the best of our knowledge, ours is among
the first few works in the automated transcription of Berber signs from
roadside images with deep learning, yielding high accuracy. This can pave the
way for developing pedagogical applications in the Berber language, thereby
addressing an important goal of outreach to underrepresented communities via AI
in education.
- Abstract(参考訳): ベルベル語族(berber)またはアマージー語族(amazigh language family)は、北アフリカで話されている言語である。
独自のアルファベットはティフィナグ(Tifinagh)と呼ばれ、モロッコ、アルジェリアなどのベルベルのコミュニティで使用されている。
Afroasiatic Language Berberは1400万人が話しているが、教育、研究、Webアプリケーションなどには十分な表現がない。
例えば、現在100以上の言語をホストしているgoogle translateのamazigh / berberへの翻訳オプションはない。
その結果,バーバーでは,L2(第2言語学習者)の獲得,自動翻訳,遠隔アクセス機能など,専門的な教育アプリが見つからなかった。
この背景から,バーバー符号の検出と転写のためのDaToBSと呼ばれる教師ありアプローチを提案する。
DaToBSアプローチは、自然環境の写真の標識からティフィナグ文字の自動認識と転写を必要とする。
これは、1862年の事前処理された文字画像のコーパスを自己作成し、人間のガイド付きアノテーションでコーパスをキュレートし、コンピュータビジョンモデルに基づく深層学習のためのCNNによるOCRモデルに供給することで達成される。
このアルファベットには画像シンボルがあるため、コンピュータビジョンモデリング(言語モデルではなく)をデプロイします。
DaToBSの実験と分析は、我々の研究で92%以上の精度が得られる。
私たちの知る限りでは、道路沿いの画像からBerberのサインを自動で書き起こし、高い精度が得られる最初の数少ない研究の1つです。
これにより、berber言語で教育的アプリケーションを開発する方法が整い、教育におけるaiを通じて過小評価されたコミュニティにリーチするという重要な目標に対処できる。
関連論文リスト
- AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Design of Arabic Sign Language Recognition Model [0.0]
このモデルはArASL 2018でテストされ、40の署名者から集められた32のアルファベット記号に対して54,000の画像で構成されている。
今後の開発は、アラビア語の手話からアラビア語のテキストに変換するモデルになる予定だ。
論文 参考訳(メタデータ) (2023-01-06T19:19:25Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - DziriBERT: a Pre-trained Language Model for the Algerian Dialect [2.064612766965483]
アラビア語や多言語モデルの使用を不適切なものにするいくつかの特異性を持つアルジェ方言について検討する。
この問題を解決するために、100万以上のアルジェリア語ツイートを収集し、最初のアルジェリア語モデルであるDziriBERTを事前訓練しました。
論文 参考訳(メタデータ) (2021-09-25T11:51:35Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。