論文の概要: CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language
Model
- arxiv url: http://arxiv.org/abs/2003.01355v2
- Date: Thu, 5 Mar 2020 03:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:43:35.046036
- Title: CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language
Model
- Title(参考訳): cluecorpus2020:事前学習言語モデルのための大規模中国語コーパス
- Authors: Liang Xu, Xuanwei Zhang, Qianqian Dong
- Abstract要約: CLUE(CLUECorpus 2020)の中国コーパスについて紹介する。
100Gの生コーパスが35億文字で、Common Crawlから回収される。
われわれは8Kの中国語彙を新たにリリースし、これはGoogleがリリースした中国ベルト語で使われている語彙の3分の1にすぎない。
- 参考スコア(独自算出の注目度): 15.469228003507919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the Chinese corpus from CLUE organization,
CLUECorpus2020, a large-scale corpus that can be used directly for
self-supervised learning such as pre-training of a language model, or language
generation. It has 100G raw corpus with 35 billion Chinese characters, which is
retrieved from Common Crawl. To better understand this corpus, we conduct
language understanding experiments on both small and large scale, and results
show that the models trained on this corpus can achieve excellent performance
on Chinese. We release a new Chinese vocabulary with a size of 8K, which is
only one-third of the vocabulary size used in Chinese Bert released by Google.
It saves computational cost and memory while works as good as original
vocabulary. We also release both large and tiny versions of the pre-trained
model on this corpus. The former achieves the state-of-the-art result, and the
latter retains most precision while accelerating training and prediction speed
for eight times compared to Bert-base. To facilitate future work on
self-supervised learning on Chinese, we release our dataset, new vocabulary,
codes, and pre-trained models on Github.
- Abstract(参考訳): 本稿では,CLUE 組織 CLUECorpus2020 の中国語コーパスについて紹介する。CLUECorpus2020 は大規模コーパスで,言語モデルの事前学習や言語生成などの自己教師型学習に直接使用することができる。
100gの生のコーパスと350億の漢字を持ち、一般的なクロールから取り出される。
このコーパスをよりよく理解するために,小・大規模の言語理解実験を行い,本コーパスで学習したモデルが中国語で優れた性能が得られることを示す。
私たちは8kサイズの新しい中国語語彙をリリースします。これはgoogleがリリースしている中国語bertの3分の1の語彙サイズです。
計算コストとメモリを節約し、元の語彙と同等に機能する。
このコーパスでは、トレーニング済みモデルの大型バージョンと小型バージョンもリリースしています。
前者は最先端の結果を達成し、後者はベルトベースに比べて8倍のトレーニングと予測速度を加速しながら、最も精度が高い。
中国における自己教師型学習の今後の取り組みを促進するため、Githubでデータセット、新しい語彙、コード、事前訓練されたモデルをリリースしています。
関連論文リスト
- Large Vocabulary Size Improves Large Language Models [28.83786065307658]
単語語彙サイズと大規模言語モデル(LLM)の性能の関係について検討する。
実験結果から,LLMの語彙サイズが大きくなると性能が向上することがわかった。
事前定義された語彙の代わりに新しい語彙を使用するための簡単な方法を導入する。
論文 参考訳(メタデータ) (2024-06-24T10:27:07Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - YACLC: A Chinese Learner Corpus with Multidimensional Annotation [45.304130762057945]
大規模多次元アノテート中国語学習コーパスを構築した。
コーパスの原文やアノテーションを解析した結果,YACLCは相当の大きさで,アノテーションの品質が高いことがわかった。
論文 参考訳(メタデータ) (2021-12-30T13:07:08Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - KR-BERT: A Small-Scale Korean-Specific Language Model [0.0]
韓国固有のKR-BERTモデルを,より小さな語彙とデータセットを用いて訓練した。
本モデルでは, コーパスを約1/10のサイズのコーパスを用いて, 既存の事前学習モデルと比較し, 比較検討を行った。
論文 参考訳(メタデータ) (2020-08-10T09:26:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。