論文の概要: Lanfrica: A Participatory Approach to Documenting Machine Translation
Research on African Languages
- arxiv url: http://arxiv.org/abs/2008.07302v1
- Date: Mon, 3 Aug 2020 18:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:59:56.331427
- Title: Lanfrica: A Participatory Approach to Documenting Machine Translation
Research on African Languages
- Title(参考訳): Lanfrica: アフリカの言語に関する機械翻訳研究のドキュメント化への参加的アプローチ
- Authors: Chris C. Emezue and Bonaventure F.P. Dossou
- Abstract要約: アフリカは1500-2000の文書化された言語と多くの未文書または絶滅した言語がある。
これにより、MTの研究、モデル、データセットの追跡が困難になる。
オンラインプラットフォームは、これらのアフリカの言語の研究、ベンチマーク、データセットへのアクセシビリティを作成するのに役立つ。
- 参考スコア(独自算出の注目度): 0.012691047660244334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the years, there have been campaigns to include the African languages in
the growing research on machine translation (MT) in particular, and natural
language processing (NLP) in general. Africa has the highest language
diversity, with 1500-2000 documented languages and many more undocumented or
extinct languages(Lewis, 2009; Bendor-Samuel, 2017). This makes it hard to keep
track of the MT research, models and dataset that have been developed for some
of them. As the internet and social media make up the daily lives of more than
half of the world(Lin, 2020), as well as over 40% of Africans(Campbell, 2019),
online platforms can be useful in creating accessibility to researches,
benchmarks and datasets in these African languages, thereby improving
reproducibility and sharing of existing research and their results. In this
paper, we introduce Lanfrica, a novel, on-going framework that employs a
participatory approach to documenting researches, projects, benchmarks and
dataset on African languages.
- Abstract(参考訳): 長年にわたり、機械翻訳(MT)や自然言語処理(NLP)全般の研究にアフリカ語を含める運動が続けられてきた。
アフリカは1500-2000の文書言語と多くの未文書または絶滅した言語(Lewis, 2009; Bendor-Samuel, 2017)がある。
これにより、いくつかの目的のために開発されたmt研究、モデル、データセットの追跡が困難になる。
インターネットとソーシャルメディアが世界の半数以上(lin, 2020)とアフリカ人の40%以上(campbell, 2019)の日常生活を構成しているため、オンラインプラットフォームは、これらのアフリカの言語における研究、ベンチマーク、データセットへのアクセシビリティの作成に役立ち、既存の研究とその成果の再現性と共有を改善している。
本稿では,アフリカ言語における研究,プロジェクト,ベンチマーク,データセットの文書化に参加型アプローチを用いた,新たなオンゴーイングフレームワークであるlanfricaを紹介する。
関連論文リスト
- EthioMT: Parallel Corpus for Low-resource Ethiopian Languages [49.80726355048843]
15言語用の新しい並列コーパスであるEthioMTを紹介する。
また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。
トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。
論文 参考訳(メタデータ) (2024-03-28T12:26:45Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - AI4D -- African Language Program [0.21960481478626018]
この研究は、言語データセットのクラウドソーシング、収集、キュレーションにインセンティブを与えた3部構成のプロジェクトであるAI4D - African Language Programを詳述している。
これまでの主な成果は、1)9以上のオープンソースの作成、さまざまなMLタスクにアノテートされたアフリカの言語データセット、2)これらのデータセットのベースラインモデルの作成である。
論文 参考訳(メタデータ) (2021-04-06T13:51:16Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - Masakhane -- Machine Translation For Africa [16.66010516114378]
MASAKHANEは、アフリカ言語のための機械翻訳のための、オープンソース、大陸規模、分散、オンライン研究の取り組みである。
我々は,アフリカ大陸からコミュニティを構築し,研究を促進するための方法論について論じる。
論文 参考訳(メタデータ) (2020-03-13T09:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。