論文の概要: NusaCrowd: Open Source Initiative for Indonesian NLP Resources
- arxiv url: http://arxiv.org/abs/2212.09648v3
- Date: Mon, 5 Jun 2023 17:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 03:46:03.208149
- Title: NusaCrowd: Open Source Initiative for Indonesian NLP Resources
- Title(参考訳): NusaCrowd: インドネシアのNLPリソースのためのオープンソースイニシアティブ
- Authors: Samuel Cahyawijaya, Holy Lovenia, Alham Fikri Aji, Genta Indra Winata,
Bryan Wilie, Rahmad Mahendra, Christian Wibisono, Ade Romadhony, Karissa
Vincentio, Fajri Koto, Jennifer Santoso, David Moeljadi, Cahya Wirawan,
Frederikus Hudi, Ivan Halim Parmonangan, Ika Alfina, Muhammad Satrio
Wicaksono, Ilham Firdausi Putra, Samsul Rahmadani, Yulianti Oenang, Ali Akbar
Septiandri, James Jaya, Kaustubh D. Dhole, Arie Ardiyanti Suryani, Rifki
Afina Putri, Dan Su, Keith Stevens, Made Nindyatama Nityasya, Muhammad Farid
Adilazuarda, Ryan Ignatius, Ryandito Diandaru, Tiezheng Yu, Vito Ghifari,
Wenliang Dai, Yan Xu, Dyah Damapuspita, Cuk Tho, Ichwanul Muslim Karo Karo,
Tirana Noor Fatyanosa, Ziwei Ji, Pascale Fung, Graham Neubig, Timothy
Baldwin, Sebastian Ruder, Herry Sujaini, Sakriani Sakti, Ayu Purwarianti
- Abstract要約: NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
- 参考スコア(独自算出の注目度): 104.5381571820792
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present NusaCrowd, a collaborative initiative to collect and unify
existing resources for Indonesian languages, including opening access to
previously non-public resources. Through this initiative, we have brought
together 137 datasets and 118 standardized data loaders. The quality of the
datasets has been assessed manually and automatically, and their value is
demonstrated through multiple experiments. NusaCrowd's data collection enables
the creation of the first zero-shot benchmarks for natural language
understanding and generation in Indonesian and the local languages of
Indonesia. Furthermore, NusaCrowd brings the creation of the first multilingual
automatic speech recognition benchmark in Indonesian and the local languages of
Indonesia. Our work strives to advance natural language processing (NLP)
research for languages that are under-represented despite being widely spoken.
- Abstract(参考訳): 我々は,インドネシア語の既存の資源を収集し,統一するための協力的イニシアティブであるnusacrowdを提案する。
このイニシアティブを通じて、127のデータセットと118の標準化データローダをまとめました。
データセットの品質は手動および自動で評価され、その値は複数の実験を通じて実証されている。
nusacrowdのデータ収集は、インドネシアおよびインドネシアのローカル言語における自然言語理解と生成のための最初のゼロショットベンチマークの作成を可能にする。
さらに、NusaCrowdはインドネシアとインドネシアの地方言語で最初の多言語自動音声認識ベンチマークを作成した。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NusaCrowd: A Call for Open and Reproducible NLP Research in Indonesian
Languages [20.051904366350293]
NusaCrowdは、すべてのインドネシア言語におけるNLPタスクの標準化されたデータローディングによる、最大のクラウドソーシングアグリゲーションの提供を目指している。
インドネシアのNLPリソースへのオープンかつ集中的なアクセスを可能にすることで、NusaCrowdがインドネシアにおけるNLPの進展を妨げるデータ不足問題に対処できることを願っています。
論文 参考訳(メタデータ) (2022-07-21T15:05:42Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z) - IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model
for Indonesian NLP [41.57622648924415]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
インドネシアにおけるこれまでの作業は、注釈付きデータセットの欠如、言語リソースの多さ、リソースの標準化の欠如によって妨げられていた。
IndoLEMデータセットはインドネシア語の7つのタスクからなる。
さらにインドネシア語のための新しい訓練済み言語モデルであるIndoBERTをリリースし、IndoLEMで評価する。
論文 参考訳(メタデータ) (2020-11-02T01:54:56Z) - IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding [41.691861010118394]
インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。
IndoNLUには12のタスクが含まれている。
タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。
また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
論文 参考訳(メタデータ) (2020-09-11T12:21:41Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。