論文の概要: IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model
for Indonesian NLP
- arxiv url: http://arxiv.org/abs/2011.00677v1
- Date: Mon, 2 Nov 2020 01:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:48:39.661067
- Title: IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model
for Indonesian NLP
- Title(参考訳): IndoLEMとIndoBERT:インドネシアNLPのためのベンチマークデータセットと事前学習言語モデル
- Authors: Fajri Koto and Afshin Rahimi and Jey Han Lau and Timothy Baldwin
- Abstract要約: インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
インドネシアにおけるこれまでの作業は、注釈付きデータセットの欠如、言語リソースの多さ、リソースの標準化の欠如によって妨げられていた。
IndoLEMデータセットはインドネシア語の7つのタスクからなる。
さらにインドネシア語のための新しい訓練済み言語モデルであるIndoBERTをリリースし、IndoLEMで評価する。
- 参考スコア(独自算出の注目度): 41.57622648924415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the Indonesian language is spoken by almost 200 million people and
the 10th most spoken language in the world, it is under-represented in NLP
research. Previous work on Indonesian has been hampered by a lack of annotated
datasets, a sparsity of language resources, and a lack of resource
standardization. In this work, we release the IndoLEM dataset comprising seven
tasks for the Indonesian language, spanning morpho-syntax, semantics, and
discourse. We additionally release IndoBERT, a new pre-trained language model
for Indonesian, and evaluate it over IndoLEM, in addition to benchmarking it
against existing resources. Our experiments show that IndoBERT achieves
state-of-the-art performance over most of the tasks in IndoLEM.
- Abstract(参考訳): インドネシア語は2億人近くが話しており、世界で10番目に多く話されている言語であるが、nlp研究では少数派である。
インドネシアでの以前の作業は、注釈付きデータセットの欠如、言語リソースのスパーシティ、リソース標準化の欠如によって妨げられている。
本研究では,インドネシア語の7つのタスクからなるindolemデータセット(モーフォシンタックス,セマンティクス,談話)をリリースする。
さらにインドネシアの新たなトレーニング済み言語モデルであるIndoBERTもリリースし、既存のリソースに対するベンチマークに加えて、IndoLEMよりも評価しています。
IndoBERTはIndoLEMのタスクの多くに対して最先端のパフォーマンスを実現している。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in
Indonesian [0.0]
MSVDデータセットからインドネシア語文への英語文の翻訳により、インドネシア初のパブリックなビデオテキストデータセットを構築した。
次に、英語のビデオテキストデータセットのために開発されたニューラルネットワークモデルを3つのタスク、すなわち、テキスト・ツー・ビデオ検索、ビデオ・ツー・テキスト検索、ビデオキャプションでトレーニングする。
論文 参考訳(メタデータ) (2023-06-20T07:19:36Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding [41.691861010118394]
インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。
IndoNLUには12のタスクが含まれている。
タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。
また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
論文 参考訳(メタデータ) (2020-09-11T12:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。