論文の概要: NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages
- arxiv url: http://arxiv.org/abs/2205.15960v1
- Date: Tue, 31 May 2022 17:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:44:57.670308
- Title: NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages
- Title(参考訳): NusaX: インドネシアの10のローカル言語のための多言語並列感データセット
- Authors: Genta Indra Winata, Alham Fikri Aji, Samuel Cahyawijaya, Rahmad
Mahendra, Fajri Koto, Ade Romadhony, Kemal Kurniawan, David Moeljadi, Radityo
Eko Prasojo, Pascale Fung, Timothy Baldwin, Jey Han Lau, Rico Sennrich,
Sebastian Ruder
- Abstract要約: インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
- 参考スコア(独自算出の注目度): 100.59889279607432
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Natural language processing (NLP) has a significant impact on society via
technologies such as machine translation and search engines. Despite its
success, NLP technology is only widely available for high-resource languages
such as English and Chinese, while it remains inaccessible to many languages
due to the unavailability of data resources and benchmarks. In this work, we
focus on developing resources for languages in Indonesia. Despite being the
second most linguistically diverse country, most languages in Indonesia are
categorized as endangered and some are even extinct. We develop the first-ever
parallel resource for 10 low-resource languages in Indonesia. Our resource
includes datasets, a multi-task benchmark, and lexicons, as well as a parallel
Indonesian-English dataset. We provide extensive analyses and describe the
challenges when creating such resources. We hope that our work can spark NLP
research on Indonesian and other underrepresented languages.
- Abstract(参考訳): 自然言語処理(nlp)は機械翻訳や検索エンジンといった技術によって社会に大きな影響を与える。
その成功にもかかわらず、NLP技術は英語や中国語のような高リソース言語でしか利用できないが、データリソースやベンチマークが利用できないため、多くの言語で利用できない。
本研究は,インドネシアにおける言語資源の開発に焦点をあてる。
最も言語的に多様であるにもかかわらず、インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
我々はインドネシアで10の低リソース言語で最初の並列リソースを開発する。
私たちのリソースには、データセット、マルチタスクベンチマーク、レキシコン、並列インドネシア英語データセットが含まれています。
このような資源を創出する際の課題について,広範な分析と解説を行う。
インドネシアや他の少数言語に関するNLP研究のきっかけになることを期待しています。
関連論文リスト
- DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives [6.599829213637133]
インドネシアは言語的にも最も多様な国の一つである。
この言語的多様性にもかかわらず、インドネシア語は、自然言語処理の研究と技術において不足している。
インドネシアではこれまでデジタル言語リソースの構築に使われていなかった文書をデジタル化してデータセットを作成する方法を提案する。
論文 参考訳(メタデータ) (2024-11-14T10:00:33Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z) - IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding [41.691861010118394]
インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。
IndoNLUには12のタスクが含まれている。
タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。
また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
論文 参考訳(メタデータ) (2020-09-11T12:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。