論文の概要: OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
- arxiv url: http://arxiv.org/abs/2501.08197v1
- Date: Tue, 14 Jan 2025 15:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:25:35.582376
- Title: OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
- Title(参考訳): OpenCSG China Corpus: LLMトレーニングのための高品質な中国データセットシリーズ
- Authors: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei,
- Abstract要約: OpenCSG Chinese Corpusは、中国語の訓練用に特別に設計された高品質なデータセットである。
本発明のコーパスは、Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese、Smoltalk-chineseを含む。
OpenCSG Chinese Corpusの特徴は、高品質なテキスト、ドメイン間の多様なカバレッジ、スケーラブルで再現可能なデータキュレーションプロセスである。
- 参考スコア(独自算出の注目度): 5.372706159579268
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities, but their success heavily relies on the quality of pretraining corpora. For Chinese LLMs, the scarcity of high-quality Chinese datasets presents a significant challenge, often limiting their performance. To address this issue, we propose the OpenCSG Chinese Corpus, a series of high-quality datasets specifically designed for LLM pretraining, post-training, and fine-tuning. This corpus includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets focus on filtered, high-quality content derived from diverse Chinese web sources; Cosmopedia-chinese provides synthetic, textbook-style data for knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its high-quality text, diverse coverage across domains, and scalable, reproducible data curation processes. Additionally, we conducted extensive experimental analyses, including evaluations on smaller parameter models, which demonstrated significant performance improvements in tasks such as C-Eval, showcasing the effectiveness of the corpus for training Chinese LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい能力を示しているが、その成功は事前学習コーパスの品質に大きく依存している。
中国のLLMにとって、高品質な中国のデータセットの不足は重要な課題であり、しばしばパフォーマンスを制限している。
この問題に対処するため、我々は、LLM事前学習、ポストトレーニング、微調整用に特別に設計された高品質なデータセットであるOpenCSG Chinese Corpusを提案する。
このコーパスには、それぞれ異なる特徴を持つファインウェブ・edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, Smoltalk-chineseが含まれる。
OpenCSG Chinese Corpusの特徴は、高品質なテキスト、ドメイン間の多様なカバレッジ、スケーラブルで再現可能なデータキュレーションプロセスである。
さらに,C-Evalなどのタスクにおいて,より小さなパラメータモデルの評価を含む広範な実験分析を行い,中国語LLMの学習におけるコーパスの有効性を示した。
関連論文リスト
- ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information [29.57708536491853]
大規模かつ高品質な中国語データセットを多次元かつきめ細かい情報で構築するための新しいツールチェーン MDFG-tool を提案する。
我々は,3.8TBの漢文テキスト2.0を公開し,各テキストは品質スコア,ドメインラベル,毒性ラベル,毒性スコアに関連付けられている。
論文 参考訳(メタデータ) (2024-11-29T12:48:49Z) - CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation [49.41531871253317]
我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
論文 参考訳(メタデータ) (2024-07-01T08:35:37Z) - SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking [56.93151679231602]
本研究は, 応答における2つの重要なスタイル的要素, 言語形式と指導的前提を同定する。
そこで我々は,SCAR(Style Consistency-Aware Response Ranking)を導入する。
論文 参考訳(メタデータ) (2024-06-16T10:10:37Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [37.843051974342124]
実世界の様々な資源から派生した,厳密な人的検証を行う新しい中国語指導調律データセットであるCOIG-CQIAを紹介する。
我々はCOIG-CQIAに関する広範な実験を行い、それらを強力なベースラインモデルやデータセットと比較する。
実験の結果,COIG-CQIAでトレーニングしたモデルは,様々なベンチマークで高い競争性能を達成できた。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with
Effective Evaluation Model [40.23569361268597]
ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。
我々は,最大かつ最新の高品質な中国語Webテキストである ChineseWebText をリリースし,その内容は1.42TB で,各テキストは品質スコアに関連付けられている。
論文 参考訳(メタデータ) (2023-11-02T11:13:51Z) - Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with
Images as Pivots [80.32906566894171]
英語の安定拡散を中国語に伝達する簡易かつ効果的な方法であるIAPを提案する。
IAPは、CLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立する。
実験結果から,本手法は,5%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-19T09:20:27Z) - Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca [23.00353889531171]
中国語テキストの理解・生成機能を備えたLLaMAの拡張手法を提案する。
我々は、中国語データを用いた二次事前学習を取り入れ、中国語の命令データセットでモデルを微調整する。
C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られた。
論文 参考訳(メタデータ) (2023-04-17T11:39:53Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - CSL: A Large-scale Chinese Scientific Literature Dataset [30.606855209042603]
CSLは,396k論文のタイトル,要約,キーワード,学術分野を含む,中国科学文献の大規模データセットである。
我々の知る限り、CSLは中国初の科学的文書データセットである。また、この半構造化データは、多くの教師付きNLPタスクを構成することができる自然なアノテーションである。
本稿では,要約,キーワード生成,テキスト分類など,科学的領域のタスクにおけるモデルの性能を評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2022-09-12T06:10:47Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。