論文の概要: AfroLID: A Neural Language Identification Tool for African Languages
- arxiv url: http://arxiv.org/abs/2210.11744v1
- Date: Fri, 21 Oct 2022 05:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:43:11.398854
- Title: AfroLID: A Neural Language Identification Tool for African Languages
- Title(参考訳): AfroLID: アフリカの言語のための言語識別ツール
- Authors: Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed and Alcides
Alcoba Inciarte
- Abstract要約: 世界の7000ドル以上の言語のほとんどは、LID技術によってカバーされていない。
アフリカ語と品種517ドルのニューラルネットワークLIDツールキットであるourLIDを紹介します。
- 参考スコア(独自算出の注目度): 5.945320097465418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language identification (LID) is a crucial precursor for NLP, especially for
mining web data. Problematically, most of the world's $7000$+ languages today
are not covered by LID technologies. We address this pressing issue for Africa
by introducing~\ourLID, a neural LID toolkit for $517$ African languages and
varieties.~\ourLID~exploits a multi-domain web dataset manually curated from
across $14$ language families utilizing five orthographic systems. When
evaluated on our blind Test set,~\ourLID~achieves $95.89$ $F_1$-score. We also
compare~\ourLID~to five existing LID tools that each cover a small number of
African languages, finding it to outperform them on most languages. We further
show the utility of~\ourLID~in the wild by testing it on the acutely
under-served Twitter domain. Finally, we offer a number of controlled case
studies and perform a linguistically-motivated error analysis that allow us to
both showcase~\ourLID's powerful capabilities and limitations.
- Abstract(参考訳): 言語識別(LID)は、特にWebデータのマイニングにおいて、NLPにとって重要な前駆体である。
現在の世界の7000ドル以上の言語のほとんどは、LID技術によってカバーされていない。
アフリカの言語と品種517ドルのニューラルネットワークLIDツールキットである~\ourLIDを導入することで、アフリカにおけるこのプレッシャー問題に対処する。
5つの正書法システムを利用して、14ドルの言語ファミリーから手作業でキュレートされたマルチドメインのWebデータセットを探索する。
盲目のテストセットで評価すると、--\ourLID~achieves 955.89$$F_1$-score。
また、ある少数のアフリカ言語をカバーする既存の5つのLIDツールを比較して、ほとんどの言語でそれらを上回るパフォーマンスを実現しています。
我々はさらに、twitterドメインでテストすることで、野生での--\ourlid-の実用性を示す。
最後に、制御されたケーススタディをいくつか提供し、言語的に動機づけられたエラー分析を行い、--\ourlidの強力な能力と制限を両立させます。
関連論文リスト
- Cheetah: Natural Language Generation for 517 African Languages [21.347462833831223]
我々はアフリカ語のための多言語NLG言語モデルであるCheetahを開発した。
チーターは517のアフリカの言語と言語の変種をサポートしている。
チーターの導入は言語的な多様性に遠く及ばない利点がある。
論文 参考訳(メタデータ) (2024-01-02T06:24:13Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - AfroDigits: A Community-Driven Spoken Digit Dataset for African
Languages [32.23306825605942]
AfroDigitsは、アフリカ言語のための音声桁の最小限のデータセットである。
6つのアフリカ言語で音声桁分類実験を行う。
AfroDigitsはアフリカ言語向けの最初のオーディオディジットデータセットである。
論文 参考訳(メタデータ) (2023-03-22T14:09:20Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z) - Lanfrica: A Participatory Approach to Documenting Machine Translation
Research on African Languages [0.012691047660244334]
アフリカは1500-2000の文書化された言語と多くの未文書または絶滅した言語がある。
これにより、MTの研究、モデル、データセットの追跡が困難になる。
オンラインプラットフォームは、これらのアフリカの言語の研究、ベンチマーク、データセットへのアクセシビリティを作成するのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T18:14:04Z) - AI4D -- African Language Dataset Challenge [1.4922337373437886]
この作業では、AI4D - African Language dataset Challengeの組織について詳述する。
これは、アフリカの言語データセットの作成、組織化、発見をインセンティブ化するための取り組みである。
我々は特に、タスク固有の教師付き機械学習モデルのトレーニングに使用できる注釈付きデータセットの提出を奨励した。
論文 参考訳(メタデータ) (2020-07-23T08:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。