論文の概要: AI4D -- African Language Program
- arxiv url: http://arxiv.org/abs/2104.02516v1
- Date: Tue, 6 Apr 2021 13:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 18:02:50.240863
- Title: AI4D -- African Language Program
- Title(参考訳): AI4D -- アフリカ言語プログラム
- Authors: Kathleen Siminyu, Godson Kalipe, Davor Orlic, Jade Abbott, Vukosi
Marivate, Sackey Freshia, Prateek Sibal, Bhanu Neupane, David I. Adelani,
Amelia Taylor, Jamiil Toure ALI, Kevin Degila, Momboladji Balogoun, Thierno
Ibrahima DIOP, Davis David, Chayma Fourati, Hatem Haddad, Malek Naski
- Abstract要約: この研究は、言語データセットのクラウドソーシング、収集、キュレーションにインセンティブを与えた3部構成のプロジェクトであるAI4D - African Language Programを詳述している。
これまでの主な成果は、1)9以上のオープンソースの作成、さまざまなMLタスクにアノテートされたアフリカの言語データセット、2)これらのデータセットのベースラインモデルの作成である。
- 参考スコア(独自算出の注目度): 0.21960481478626018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in speech and language technologies enable tools such as
voice-search, text-to-speech, speech recognition and machine translation. These
are however only available for high resource languages like English, French or
Chinese. Without foundational digital resources for African languages, which
are considered low-resource in the digital context, these advanced tools remain
out of reach. This work details the AI4D - African Language Program, a 3-part
project that 1) incentivised the crowd-sourcing, collection and curation of
language datasets through an online quantitative and qualitative challenge, 2)
supported research fellows for a period of 3-4 months to create datasets
annotated for NLP tasks, and 3) hosted competitive Machine Learning challenges
on the basis of these datasets. Key outcomes of the work so far include 1) the
creation of 9+ open source, African language datasets annotated for a variety
of ML tasks, and 2) the creation of baseline models for these datasets through
hosting of competitive ML challenges.
- Abstract(参考訳): 音声と言語技術の進歩は、音声検索、テキスト音声、音声認識、機械翻訳などのツールを可能にする。
しかし、これらは英語、フランス語、中国語のような高資源言語でしか利用できない。
デジタルの文脈で低リソースと見なされるアフリカ言語の基本的なデジタルリソースがなければ、これらの先進的なツールは手に入らないままである。
本研究は,1)クラウドソーシング,収集,キュレーションをオンラインの量的・質的課題を通じて実施する3部プロジェクトであるai4d-アフリカ言語プログラム,2)nlpタスク用にアノテーション付きデータセットを作成するための3~4ヶ月間の研究フェローの支援,3)これらのデータセットに基づいて機械学習課題をホストする3部プロジェクトについて詳述する。
これまでの作業の主な成果は、1)9以上のオープンソースの作成、2)さまざまなMLタスクにアノテートされたアフリカの言語データセット、2)競合するML課題のホスティングを通じて、これらのデータセットのベースラインモデルの作成である。
関連論文リスト
- Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Adapting to the Low-Resource Double-Bind: Investigating Low-Compute
Methods on Low-Resource African Languages [0.6833698896122186]
アフリカの言語のデータ不足問題に追加された高い計算資源へのアクセス。
低リソースのアフリカNLPに対して,言語アダプタをコスト効率の良いアプローチとして評価する。
これにより、言語アダプタの能力に関するさらなる実験と探索の扉が開ける。
論文 参考訳(メタデータ) (2023-03-29T19:25:43Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Lanfrica: A Participatory Approach to Documenting Machine Translation
Research on African Languages [0.012691047660244334]
アフリカは1500-2000の文書化された言語と多くの未文書または絶滅した言語がある。
これにより、MTの研究、モデル、データセットの追跡が困難になる。
オンラインプラットフォームは、これらのアフリカの言語の研究、ベンチマーク、データセットへのアクセシビリティを作成するのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T18:14:04Z) - AI4D -- African Language Dataset Challenge [1.4922337373437886]
この作業では、AI4D - African Language dataset Challengeの組織について詳述する。
これは、アフリカの言語データセットの作成、組織化、発見をインセンティブ化するための取り組みである。
我々は特に、タスク固有の教師付き機械学習モデルのトレーニングに使用できる注釈付きデータセットの提出を奨励した。
論文 参考訳(メタデータ) (2020-07-23T08:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。