論文の概要: CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.07463v1
- Date: Mon, 09 Jun 2025 06:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.828344
- Title: CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models
- Title(参考訳): CCI4.0: 大規模言語モデルにおける推論強化のためのバイリンガル事前学習データセット
- Authors: Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin,
- Abstract要約: 我々はCCI4.0を紹介した。CCI4.0は、データ品質と多種多様なヒューマンライクな推論軌道のために設計された、大規模なバイリンガル事前学習データセットである。
CCI4.0はディスク空間を約35ドルで占有し、CCI4.0-M2-BaseとCCI4.0-M2-CoTの2つのサブデータセットから構成される。
- 参考スコア(独自算出の注目度): 17.04426696455121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CCI4.0, a large-scale bilingual pre-training dataset engineered for superior data quality and diverse human-like reasoning trajectory. CCI4.0 occupies roughly $35$ TB of disk space and comprises two sub-datasets: CCI4.0-M2-Base and CCI4.0-M2-CoT. CCI4.0-M2-Base combines a $5.2$ TB carefully curated Chinese web corpus, a $22.5$ TB English subset from Nemotron-CC, and diverse sources from math, wiki, arxiv, and code. Although these data are mostly sourced from well-processed datasets, the quality standards of various domains are dynamic and require extensive expert experience and labor to process. So, we propose a novel pipeline justifying data quality mainly based on models through two-stage deduplication, multiclassifier quality scoring, and domain-aware fluency filtering. We extract $4.5$ billion pieces of CoT(Chain-of-Thought) templates, named CCI4.0-M2-CoT. Differing from the distillation of CoT from larger models, our proposed staged CoT extraction exemplifies diverse reasoning patterns and significantly decreases the possibility of hallucination. Empirical evaluations demonstrate that LLMs pre-trained in CCI4.0 benefit from cleaner, more reliable training signals, yielding consistent improvements in downstream tasks, especially in math and code reflection tasks. Our results underscore the critical role of rigorous data curation and human thinking templates in advancing LLM performance, shedding some light on automatically processing pretraining corpora.
- Abstract(参考訳): 我々はCCI4.0を紹介した。CCI4.0は、データ品質と多種多様なヒューマンライクな推論軌道のために設計された、大規模なバイリンガル事前学習データセットである。
CCI4.0はディスク空間を約35ドルで占有し、CCI4.0-M2-BaseとCCI4.0-M2-CoTの2つのサブデータセットから構成される。
CCI4.0-M2-Baseは、慎重にキュレートされた中国のウェブコーパス、Nemotron-CCの22.5ドル TBの英語サブセット、数学、wiki、arxiv、コードなど様々な情報源を組み合わせている。
これらのデータは主に、よく処理されたデータセットから得られたものですが、さまざまなドメインの品質基準は動的で、処理に豊富な専門家の経験と労力が必要です。
そこで,本研究では,2段階復号化,複数分類器品質スコアリング,ドメイン認識流速フィルタリングなどにより,主にモデルに基づくデータ品質を正当化するパイプラインを提案する。
我々はCCI4.0-M2-CoTという名前のCoT(Chain-of-Thought)テンプレートを45億ドルで抽出する。
大規模モデルからのCoTの蒸留から,提案したCoT抽出法は多様な推論パターンを示し,幻覚の可能性を著しく低下させる。
実証的な評価では、CCI4.0で事前訓練されたLLMは、よりクリーンで信頼性の高いトレーニング信号から恩恵を受けており、特に数学やコードリフレクションタスクにおいて下流タスクに一貫した改善をもたらすことが示されている。
以上の結果から,厳密なデータキュレーションと人間の思考テンプレートがLCM性能を向上させる上で重要な役割を担い,事前学習コーパスの自動処理に光を当てた。
関連論文リスト
- DataMan: Data Manager for Pre-training Large Language Models [39.677609311769146]
既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。
テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。
実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-26T18:01:19Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information
Extraction [38.88339164947934]
言語横断的オープン情報抽出は,複数の言語にまたがる原文から構造化された情報を抽出することを目的としている。
以前の作業では、異なる言語を扱うために、共通言語間の事前訓練モデルを使用していたが、言語固有の表現の可能性を過小評価している。
MT4CrossIEという,言語間オープン情報抽出の効率化を目的とした,効果的な多段階チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-12T12:38:10Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。