論文の概要: Building a Large Japanese Web Corpus for Large Language Models
- arxiv url: http://arxiv.org/abs/2404.17733v1
- Date: Sat, 27 Apr 2024 00:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:30:48.597965
- Title: Building a Large Japanese Web Corpus for Large Language Models
- Title(参考訳): 大規模言語モデルのための大規模日本語Webコーパスの構築
- Authors: Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, Sakae Mizuki,
- Abstract要約: 本研究では,Common Crawlアーカイブからテキストを抽出し,精錬することにより,大規模なWebコーパスを構築する。
約312億文字(約1億7300万ページ)からなる。
コーパスの品質を確認するため,Llama 2 7B, 13B, 70B, Mistral 7B v0.1, Mixtral 8x7BをベースLLMとして継続トレーニングを行った。
- 参考スコア(独自算出の注目度): 20.407125127485276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open Japanese large language models (LLMs) have been trained on the Japanese portions of corpora such as CC-100, mC4, and OSCAR. However, these corpora were not created for the quality of Japanese texts. This study builds a large Japanese web corpus by extracting and refining text from the Common Crawl archive (21 snapshots of approximately 63.4 billion pages crawled between 2020 and 2023). This corpus consists of approximately 312.1 billion characters (approximately 173 million pages), which is the largest of all available training corpora for Japanese LLMs, surpassing CC-100 (approximately 25.8 billion characters), mC4 (approximately 239.7 billion characters) and OSCAR 23.10 (approximately 74 billion characters). To confirm the quality of the corpus, we performed continual pre-training on Llama 2 7B, 13B, 70B, Mistral 7B v0.1, and Mixtral 8x7B Instruct as base LLMs and gained consistent (6.6-8.1 points) improvements on Japanese benchmark datasets. We also demonstrate that the improvement on Llama 2 13B brought from the presented corpus was the largest among those from other existing corpora.
- Abstract(参考訳): オープン日本語大言語モデル(LLM)は,CC-100,mC4,OSCARなどの日本語コーパスで訓練されている。
しかし、これらのコーパスは和文の質のために作られたものではない。
本研究では,Common Crawlアーカイブからテキストを抽出し,精錬することにより,大規模なWebコーパスを構築する(2020年から2023年にかけて,約63億ページのスナップショット21枚)。
約312億文字(約1億7300万ページ)で、CC-100(約28億文字)、mC4(約2397億文字)、OSCAR 23.10(約74億文字)を上回り、日本のLLMで利用可能なトレーニングコーパスの中で最大である。
コーパスの品質を確認するため,Llama 2 7B, 13B, 70B, Mistral 7B v0.1, Mixtral 8x7BをベースLLMとして継続事前トレーニングを行い,日本のベンチマークデータセットに対して一貫した(6.6-8.1点)改善を得た。
また,提案コーパスから得られたLlama 2 13Bの改善は,既存のコーパスの中でも最大であった。
関連論文リスト
- Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining [20.18032411452028]
バイリンガルWebサイトから4.6万文対の日本語と中国語のパラレルコーパスを作成した。
日本語と中国語のバイリンガル辞書である160K語対を文書と文のアライメントに用いた。
我々は,これらの4.6M文対で訓練されたモデルの翻訳精度と,グローバルWebマイニングの並列コーパスであるCCMatrix (12.4M)の日本語と中国語の文対で訓練されたモデルの翻訳精度を比較した。
論文 参考訳(メタデータ) (2024-05-15T00:54:40Z) - Assessing Translation capabilities of Large Language Models involving
English and Indian Languages [4.067706269490143]
機械翻訳を英語と22のインド語を含む課題として用いて,大規模言語モデルの多言語的機能について検討する。
パラメータ効率のよいLoRAなどの微調整手法と,さらに完全な微調整を併用して,これらの大規模言語モデルを微調整する。
その結果,平均BLEUスコアは13.42,15.93,12.13,12.30,12.07,CHRFスコアは43.98,46.99,42.55,42.42,45.39であった。
論文 参考訳(メタデータ) (2023-11-15T18:58:19Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Vega-MT: The JD Explore Academy Translation System for WMT22 [67.71016343958556]
言語ペアとモデルサイズという2つの主要な要因をスケールアップすることで、これまでの作業の限界を押し上げます。
第1位はZh-En(45.1)、En-Zh(61.7)、De-En(58.0)、En-De(63.2)、Cs-En(74.7)、Ru-En(64.9)、En-Ru(69.6)、En-Ja(65.1)、En-Cs(95.3)、Ja-En(40.6)である。
論文 参考訳(メタデータ) (2022-09-20T03:45:24Z) - JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [31.203776611871863]
本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。
JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。
我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
論文 参考訳(メタデータ) (2022-02-25T10:52:00Z) - CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language
Model [15.469228003507919]
CLUE(CLUECorpus 2020)の中国コーパスについて紹介する。
100Gの生コーパスが35億文字で、Common Crawlから回収される。
われわれは8Kの中国語彙を新たにリリースし、これはGoogleがリリースした中国ベルト語で使われている語彙の3分の1にすぎない。
論文 参考訳(メタデータ) (2020-03-03T06:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。