論文の概要: IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding
- arxiv url: http://arxiv.org/abs/2009.05387v3
- Date: Thu, 8 Oct 2020 13:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 21:25:40.550556
- Title: IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding
- Title(参考訳): IndoNLU:インドネシアの自然言語理解を評価するためのベンチマークとリソース
- Authors: Bryan Wilie, Karissa Vincentio, Genta Indra Winata, Samuel
Cahyawijaya, Xiaohong Li, Zhi Yuan Lim, Sidik Soleman, Rahmad Mahendra,
Pascale Fung, Syafri Bahar, Ayu Purwarianti
- Abstract要約: インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。
IndoNLUには12のタスクが含まれている。
タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。
また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
- 参考スコア(独自算出の注目度): 41.691861010118394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Indonesian is known to be the fourth most frequently used language
over the internet, the research progress on this language in the natural
language processing (NLP) is slow-moving due to a lack of available resources.
In response, we introduce the first-ever vast resource for the training,
evaluating, and benchmarking on Indonesian natural language understanding
(IndoNLU) tasks. IndoNLU includes twelve tasks, ranging from single sentence
classification to pair-sentences sequence labeling with different levels of
complexity. The datasets for the tasks lie in different domains and styles to
ensure task diversity. We also provide a set of Indonesian pre-trained models
(IndoBERT) trained from a large and clean Indonesian dataset Indo4B collected
from publicly available sources such as social media texts, blogs, news, and
websites. We release baseline models for all twelve tasks, as well as the
framework for benchmark evaluation, and thus it enables everyone to benchmark
their system performances.
- Abstract(参考訳): インドネシア語はインターネット上で4番目に頻繁に使われる言語として知られているが、自然言語処理(nlp)におけるこの言語の研究の進展は、利用可能なリソースが不足していることから遅い。
そこで本研究では,インドネシア自然言語理解(indonlu)タスクの訓練,評価,ベンチマークを行うための,史上初となる膨大なリソースを紹介する。
indonluには12のタスクがあり、単一の文の分類から、異なるレベルの複雑さを持つペア・センス・シーケンスラベリングまで幅広い。
タスクのデータセットは、タスクの多様性を確保するために、異なるドメインとスタイルにあります。
また,ソーシャルメディアのテキストやブログ,ニュース,webサイトなどの公開ソースから収集した,大規模でクリーンなインドネシアのデータセットであるindo4bからトレーニングされたインドネシア事前トレーニングモデル(indobert)も提供する。
我々は12タスクのベースラインモデルとベンチマーク評価のフレームワークをリリースし、システムパフォーマンスのベンチマークを可能にする。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in
Indonesian [0.0]
MSVDデータセットからインドネシア語文への英語文の翻訳により、インドネシア初のパブリックなビデオテキストデータセットを構築した。
次に、英語のビデオテキストデータセットのために開発されたニューラルネットワークモデルを3つのタスク、すなわち、テキスト・ツー・ビデオ検索、ビデオ・ツー・テキスト検索、ビデオキャプションでトレーニングする。
論文 参考訳(メタデータ) (2023-06-20T07:19:36Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural
Language Generation [45.90242600586664]
インドネシア語における自然言語生成のための最初のベンチマークであるIndoNLGを紹介する。
Indo4B-Plusと呼ばれるインドネシア、サンダン、ジャワのデータセットの広大な、きれいな事前トレーニングコーパスを提供します。
IndoNLGタスクを広範囲に評価することにより,IndoBARTの有効性と効率を評価する。
論文 参考訳(メタデータ) (2021-04-16T16:16:44Z) - IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model
for Indonesian NLP [41.57622648924415]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
インドネシアにおけるこれまでの作業は、注釈付きデータセットの欠如、言語リソースの多さ、リソースの標準化の欠如によって妨げられていた。
IndoLEMデータセットはインドネシア語の7つのタスクからなる。
さらにインドネシア語のための新しい訓練済み言語モデルであるIndoBERTをリリースし、IndoLEMで評価する。
論文 参考訳(メタデータ) (2020-11-02T01:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。