論文の概要: Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training
- arxiv url: http://arxiv.org/abs/2602.07824v1
- Date: Sun, 08 Feb 2026 05:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.818597
- Title: Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training
- Title(参考訳): データダーウィン主義 その1:事前学習のための科学データの価値を解き放つ
- Authors: Yiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu,
- Abstract要約: データモデル共進化を概念化した10レベルの分類法であるデータダーウィン主義を紹介する。
900BのコーパスであるDarwin-Scienceを構築し,学術文献でこれを検証した。
我々はDarwin-Science corpusとdaci-originモデルをリリースし、原則的、共同進化的開発を可能にします。
- 参考スコア(独自算出の注目度): 39.148751989348774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.
- Abstract(参考訳): データ品質は基礎モデルのパフォーマンスを決定するが、体系的な処理フレームワークは欠けている。
データモデルの共進化を概念化した10レベル分類法(L0-L9)であるData Darwinismを紹介します。
900B-token corpus (L0-L5) であるDarwin-Science を構築。
我々は,L4 (Generative Refinement) とL5 (Cognitive Completion) を介して,フロンティアLSMを用いて,推論と用語を記述した生の科学的テキストの学習可能性ギャップを同定する。
厳密な帰属を確保するため,ダヴィンチ・オリジン3B/7Bモデルをスクラッチからトレーニングした。
600Bの事前トレーニングの後、ダーウィン・サイエンスは20以上のベンチマークで+2.12 (3B)と+2.95 (7B)でベースラインを上回り、+5.60と+8.40に上昇した。
L5 への体系的な進歩は +1.36 の合計ゲインとなり、高いレベルの処理で遅延データ値がアンロックされることを確認した。
我々はDarwin-Science corpusとdaVinci-originモデルをリリースし、原則的、共同進化的開発を可能にします。
関連論文リスト
- CoT-Evo: Evolutionary Distillation of Chain-of-Thought for Scientific Reasoning [63.44477226386808]
先進的な大規模言語モデル(LLM)からのCoT蒸留は、一般的な推論タスクにおいて有効であることが証明されている。
しかし、先進的なモデルでさえ、誤った、あるいは表面的な推論をしばしば生み出す科学領域では苦戦している。
この問題を解決するために, 進化的CoT蒸留フレームワークであるCoT-Evoを提案する。
論文 参考訳(メタデータ) (2025-10-15T05:29:56Z) - SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.78540935201558]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。
このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。
i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文 参考訳(メタデータ) (2025-09-25T17:52:06Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。
これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。
SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。