論文の概要: NusaCrowd: A Call for Open and Reproducible NLP Research in Indonesian
Languages
- arxiv url: http://arxiv.org/abs/2207.10524v1
- Date: Thu, 21 Jul 2022 15:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:20:31.831625
- Title: NusaCrowd: A Call for Open and Reproducible NLP Research in Indonesian
Languages
- Title(参考訳): NusaCrowd: インドネシア語におけるオープンで再現可能なNLP研究の呼びかけ
- Authors: Samuel Cahyawijaya, Alham Fikri Aji, Holy Lovenia, Genta Indra Winata,
Bryan Wilie, Rahmad Mahendra, Fajri Koto, David Moeljadi, Karissa Vincentio,
Ade Romadhony, Ayu Purwarianti
- Abstract要約: NusaCrowdは、すべてのインドネシア言語におけるNLPタスクの標準化されたデータローディングによる、最大のクラウドソーシングアグリゲーションの提供を目指している。
インドネシアのNLPリソースへのオープンかつ集中的なアクセスを可能にすることで、NusaCrowdがインドネシアにおけるNLPの進展を妨げるデータ不足問題に対処できることを願っています。
- 参考スコア(独自算出の注目度): 20.051904366350293
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: At the center of the underlying issues that halt Indonesian natural language
processing (NLP) research advancement, we find data scarcity. Resources in
Indonesian languages, especially the local ones, are extremely scarce and
underrepresented. Many Indonesian researchers do not publish their dataset.
Furthermore, the few public datasets that we have are scattered across
different platforms, thus makes performing reproducible and data-centric
research in Indonesian NLP even more arduous. Rising to this challenge, we
initiate the first Indonesian NLP crowdsourcing effort, NusaCrowd. NusaCrowd
strives to provide the largest datasheets aggregation with standardized data
loading for NLP tasks in all Indonesian languages. By enabling open and
centralized access to Indonesian NLP resources, we hope NusaCrowd can tackle
the data scarcity problem hindering NLP progress in Indonesia and bring NLP
practitioners to move towards collaboration.
- Abstract(参考訳): インドネシアの自然言語処理(NLP)研究の進展を食い止める根底にある問題の中心には、データ不足がある。
インドネシア語、特に現地語の資源は極めて乏しく、過小評価されている。
多くのインドネシアの研究者はデータセットを公開していない。
さらに、いくつかの公開データセットはさまざまなプラットフォームに分散しており、インドネシアのNLPにおける再現性とデータ中心の研究をさらに困難にしています。
この課題に乗じて,インドネシア初のNLPクラウドソーシング活動であるNusaCrowdを開始しました。
NusaCrowdは、すべてのインドネシア言語におけるNLPタスクの標準化されたデータローディングを備えた、最大のデータシートアグリゲーションの提供を目指している。
インドネシアのNLPリソースへのオープンで集中的なアクセスを可能にすることで、NusaCrowdがインドネシアにおけるNLPの進歩を妨げるデータ不足の問題に対処し、NLP実践者たちを協力へと導くことを願っています。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Beyond Good Intentions: Reporting the Research Landscape of NLP for
Social Good [115.1507728564964]
NLP4SG Papersは3つのタスクを関連づけた科学データセットである。
これらのタスクはNLP4SGの論文を特定し、NLP4SGのランドスケープを特徴付けるのに役立つ。
現状のNLPモデルを用いてこれらのタスクに対処し、ACLアンソロジー全体においてそれらを使用する。
論文 参考訳(メタデータ) (2023-05-09T14:16:25Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z) - IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model
for Indonesian NLP [41.57622648924415]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
インドネシアにおけるこれまでの作業は、注釈付きデータセットの欠如、言語リソースの多さ、リソースの標準化の欠如によって妨げられていた。
IndoLEMデータセットはインドネシア語の7つのタスクからなる。
さらにインドネシア語のための新しい訓練済み言語モデルであるIndoBERTをリリースし、IndoLEMで評価する。
論文 参考訳(メタデータ) (2020-11-02T01:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。