論文の概要: Natural Language Processing in Ethiopian Languages: Current State,
Challenges, and Opportunities
- arxiv url: http://arxiv.org/abs/2303.14406v1
- Date: Sat, 25 Mar 2023 09:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:02:51.727878
- Title: Natural Language Processing in Ethiopian Languages: Current State,
Challenges, and Opportunities
- Title(参考訳): エチオピア語における自然言語処理の現状,課題,機会
- Authors: Atnafu Lambebo Tonja, Tadesse Destaw Belay, Israel Abebe Azime, Abinew
Ali Ayele, Moges Ahmed Mehamed, Olga Kolesnikova, Seid Muhie Yimam
- Abstract要約: この調査は、Amharic、Afaan Oromo、Tigrinya、Wolayttaの4つのエチオピア語に対する自然言語処理(NLP)の現状を掘り下げるものである。
- 参考スコア(独自算出の注目度): 3.6328558641172553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This survey delves into the current state of natural language processing
(NLP) for four Ethiopian languages: Amharic, Afaan Oromo, Tigrinya, and
Wolaytta. Through this paper, we identify key challenges and opportunities for
NLP research in Ethiopia. Furthermore, we provide a centralized repository on
GitHub that contains publicly available resources for various NLP tasks in
these languages. This repository can be updated periodically with contributions
from other researchers. Our objective is to identify research gaps and
disseminate the information to NLP researchers interested in Ethiopian
languages and encourage future research in this domain.
- Abstract(参考訳): この調査は、Amharic、Afaan Oromo、Tigrinya、Wolayttaの4つのエチオピア語に対する自然言語処理(NLP)の現状を掘り下げるものである。
本稿では,エチオピアにおけるNLP研究の課題と機会を明らかにする。
さらに、これらの言語でさまざまなNLPタスクのための公開リソースを含む集中リポジトリをGitHubに提供しています。
このリポジトリは、他の研究者からのコントリビューションとともに定期的に更新することができる。
本研究の目的は,エチオピア語に興味のあるNLP研究者に研究ギャップを特定し,その情報を広めることである。
関連論文リスト
- Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Beyond Good Intentions: Reporting the Research Landscape of NLP for
Social Good [115.1507728564964]
NLP4SG Papersは3つのタスクを関連づけた科学データセットである。
これらのタスクはNLP4SGの論文を特定し、NLP4SGのランドスケープを特徴付けるのに役立つ。
現状のNLPモデルを用いてこれらのタスクに対処し、ACLアンソロジー全体においてそれらを使用する。
論文 参考訳(メタデータ) (2023-05-09T14:16:25Z) - A Survey of Corpora for Germanic Low-Resource Languages and Dialects [18.210880703295253]
この研究は低リソース言語、特に非標準の低リソース言語に焦点を当てている。
研究を促進するために,80以上のコーパスの概要を公開している。
論文 参考訳(メタデータ) (2023-04-19T16:45:16Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z) - Transfer Learning for Multi-lingual Tasks -- a Survey [11.596820548674266]
自然言語処理(NLP)におけるクロス言語の内容と多言語主義はホットトピックである。
本稿では,多言語タスクにおける伝達学習技術に着目し,既存の文献の概要を概観する。
論文 参考訳(メタデータ) (2021-08-28T20:29:43Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z) - OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo [0.015863809575305417]
本稿では,Fon の最先端 ASR モデルと Igbo のベンチマーク ASR モデルについて述べる。
本稿では,各言語の包括的言語分析を行い,両言語間のエンドツーエンド,ディープニューラルネットワークに基づく音声認識モデルの作成について述べる。
論文 参考訳(メタデータ) (2021-03-13T18:02:44Z) - Lanfrica: A Participatory Approach to Documenting Machine Translation
Research on African Languages [0.012691047660244334]
アフリカは1500-2000の文書化された言語と多くの未文書または絶滅した言語がある。
これにより、MTの研究、モデル、データセットの追跡が困難になる。
オンラインプラットフォームは、これらのアフリカの言語の研究、ベンチマーク、データセットへのアクセシビリティを作成するのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T18:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。