論文の概要: IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural
Language Generation
- arxiv url: http://arxiv.org/abs/2104.08200v1
- Date: Fri, 16 Apr 2021 16:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:25:01.049988
- Title: IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural
Language Generation
- Title(参考訳): IndoNLG:インドネシアの自然言語生成を評価するためのベンチマークとリソース
- Authors: Samuel Cahyawijaya, Genta Indra Winata, Bryan Wilie, Karissa
Vincentio, Xiaohong Li, Adhiguna Kuncoro, Sebastian Ruder, Zhi Yuan Lim,
Syafri Bahar, Masayu Leylia Khodra, Ayu Purwarianti, Pascale Fung
- Abstract要約: インドネシア語における自然言語生成のための最初のベンチマークであるIndoNLGを紹介する。
Indo4B-Plusと呼ばれるインドネシア、サンダン、ジャワのデータセットの広大な、きれいな事前トレーニングコーパスを提供します。
IndoNLGタスクを広範囲に評価することにより,IndoBARTの有効性と効率を評価する。
- 参考スコア(独自算出の注目度): 45.90242600586664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A benchmark provides an ecosystem to measure the advancement of models with
standard datasets and automatic and human evaluation metrics. We introduce
IndoNLG, the first such benchmark for the Indonesian language for natural
language generation (NLG). It covers six tasks: summarization, question
answering, open chitchat, as well as three different language-pairs of machine
translation tasks. We provide a vast and clean pre-training corpus of
Indonesian, Sundanese, and Javanese datasets called Indo4B-Plus, which is used
to train our pre-trained NLG model, IndoBART. We evaluate the effectiveness and
efficiency of IndoBART by conducting extensive evaluation on all IndoNLG tasks.
Our findings show that IndoBART achieves competitive performance on Indonesian
tasks with five times fewer parameters compared to the largest multilingual
model in our benchmark, mBART-LARGE (Liu et al., 2020), and an almost 4x and
2.5x faster inference time on the CPU and GPU respectively. We additionally
demonstrate the ability of IndoBART to learn Javanese and Sundanese, and it
achieves decent performance on machine translation tasks.
- Abstract(参考訳): ベンチマークは、標準データセットと自動および人的評価メトリクスでモデルの進歩を測定するエコシステムを提供する。
インドネシア語自然言語生成(nlg)のための最初のベンチマークであるindonlgを紹介する。
それは、要約、質問応答、オープンチチャット、および機械翻訳タスクの3つの異なる言語ペアの6つのタスクをカバーする。
インドネシア、スンダン、ジャワのデータセットであるindo4b-plusは、トレーニング済みのnlgモデルであるindobartのトレーニングに使用されています。
IndoNLGタスクを広範囲に評価することにより,IndoBARTの有効性と効率を評価する。
その結果,indobartはインドネシアのタスクにおいて,ベンチマークの最大多言語モデルであるmbart-large (liu et al., 2020) と,cpuとgpuの約4倍,2.5倍の速度で,5分の1のパラメータで性能が向上した。
IndoBARTがJavaneseとSundaneseを学習できることを実証し、機械翻訳タスクで十分なパフォーマンスを実現する。
関連論文リスト
- VLUE: A New Benchmark and Multi-task Knowledge Transfer Learning for Vietnamese Natural Language Understanding [1.813644606477824]
本稿ではベトナム語理解評価(VLUE)ベンチマークについて紹介する。
VLUEベンチマークは、テキスト分類、スパン抽出、自然言語理解など、異なるNLUタスクをカバーする5つのデータセットを含んでいる。
提案するCafeBERTは,VLUEベンチマークのすべてのタスクにおいて優れた結果が得られる,最先端の事前訓練モデルである。
論文 参考訳(メタデータ) (2024-03-23T16:26:49Z) - IndoToD: A Multi-Domain Indonesian Benchmark For End-to-End
Task-Oriented Dialogue Systems [26.094144160398447]
本稿ではインドネシアのマルチドメインToDベンチマークであるIndoToDを紹介する。
2つの英語のToDデータセットをインドネシア語に拡張し、4つの異なるドメインをデレキシライズしてアノテーションのサイズを効率的に削減する。
高品質なデータ収集を保証するため、対話を手動で翻訳するためにネイティブな話者を雇います。
論文 参考訳(メタデータ) (2023-11-02T03:01:53Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - GLGE: A New General Language Generation Evaluation Benchmark [139.25515221280767]
General Language Generation Evaluation (GLGE)は、NLGモデルの一般化能力を評価するための新しいマルチタスクベンチマークである。
NLGモデルにおける事前学習と伝達学習の研究を促進するため、GLGEを一般公開し、強力なベースラインを持つリーダーボードを構築する。
論文 参考訳(メタデータ) (2020-11-24T06:59:45Z) - IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model
for Indonesian NLP [41.57622648924415]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
インドネシアにおけるこれまでの作業は、注釈付きデータセットの欠如、言語リソースの多さ、リソースの標準化の欠如によって妨げられていた。
IndoLEMデータセットはインドネシア語の7つのタスクからなる。
さらにインドネシア語のための新しい訓練済み言語モデルであるIndoBERTをリリースし、IndoLEMで評価する。
論文 参考訳(メタデータ) (2020-11-02T01:54:56Z) - IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding [41.691861010118394]
インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。
IndoNLUには12のタスクが含まれている。
タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。
また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
論文 参考訳(メタデータ) (2020-09-11T12:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。