論文の概要: Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training
- arxiv url: http://arxiv.org/abs/2602.07824v1
- Date: Sun, 08 Feb 2026 05:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.818597
- Title: Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training
- Title(参考訳): データダーウィン主義 その1:事前学習のための科学データの価値を解き放つ
- Authors: Yiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu,
- Abstract要約: データモデル共進化を概念化した10レベルの分類法であるデータダーウィン主義を紹介する。
900BのコーパスであるDarwin-Scienceを構築し,学術文献でこれを検証した。
我々はDarwin-Science corpusとdaci-originモデルをリリースし、原則的、共同進化的開発を可能にします。
- 参考スコア(独自算出の注目度): 39.148751989348774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.
- Abstract(参考訳): データ品質は基礎モデルのパフォーマンスを決定するが、体系的な処理フレームワークは欠けている。
データモデルの共進化を概念化した10レベル分類法(L0-L9)であるData Darwinismを紹介します。
900B-token corpus (L0-L5) であるDarwin-Science を構築。
我々は,L4 (Generative Refinement) とL5 (Cognitive Completion) を介して,フロンティアLSMを用いて,推論と用語を記述した生の科学的テキストの学習可能性ギャップを同定する。
厳密な帰属を確保するため,ダヴィンチ・オリジン3B/7Bモデルをスクラッチからトレーニングした。
600Bの事前トレーニングの後、ダーウィン・サイエンスは20以上のベンチマークで+2.12 (3B)と+2.95 (7B)でベースラインを上回り、+5.60と+8.40に上昇した。
L5 への体系的な進歩は +1.36 の合計ゲインとなり、高いレベルの処理で遅延データ値がアンロックされることを確認した。
我々はDarwin-Science corpusとdaVinci-originモデルをリリースし、原則的、共同進化的開発を可能にします。
関連論文リスト
- CoT-Evo: Evolutionary Distillation of Chain-of-Thought for Scientific Reasoning [63.44477226386808]
先進的な大規模言語モデル(LLM)からのCoT蒸留は、一般的な推論タスクにおいて有効であることが証明されている。
しかし、先進的なモデルでさえ、誤った、あるいは表面的な推論をしばしば生み出す科学領域では苦戦している。
この問題を解決するために, 進化的CoT蒸留フレームワークであるCoT-Evoを提案する。
論文 参考訳(メタデータ) (2025-10-15T05:29:56Z) - MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.78540935201558]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。
このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。
i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文 参考訳(メタデータ) (2025-09-25T17:52:06Z) - THE-Tree: Can Tracing Historical Evolution Enhance Scientific Verification and Reasoning? [16.91455372359864]
textbfTechnology textbfHistory textbfEvolution Treeは,これらの領域固有の進化木を科学文献から構築する計算フレームワークである。
論文 参考訳(メタデータ) (2025-06-26T20:44:51Z) - DarwinLM: Evolutionary Structured Pruning of Large Language Models [49.55509443720372]
大規模言語モデル(LLM)は様々なNLPタスクで大きな成功を収めた。
構造化プルーニングは、モデルを圧縮し、エンドツーエンドのスピード改善を直接提供する、効果的なソリューションを提供する。
本研究では,構造化プルーニングの訓練手法であるDarwinLMを提案する。
論文 参考訳(メタデータ) (2025-02-11T18:59:35Z) - First Train to Generate, then Generate to Train: UnitedSynT5 for Few-Shot NLI [1.2642388972233847]
We present UnitedSynT5, a Advanced extension of Entailment Few-Shot Learning (EFL)。
我々は、T5ベースのジェネレータを使用して、厳格にクリーン化され、トレーニングデータに統合された追加の前提-仮説ペアを合成する。
この拡張データセット上でGTR-T5-XLモデルをトレーニングし、SNLIデータセットで94.7%の精度、E-SNLIデータセットで94.0%の精度、MultiNLIデータセットで92.6%の精度を達成し、以前のSOTAモデルを上回った。
論文 参考訳(メタデータ) (2024-12-12T13:21:09Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。
これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。
SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MuCoMiD: A Multitask Convolutional Learning Framework for miRNA-Disease
Association Prediction [0.4061135251278187]
本稿では, MuCoMiD と呼ぶ新しいマルチタスク畳み込み方式を提案する。
MuCoMiDは、4つの異種生物情報ソースからの知識を取り入れつつ、自動特徴抽出を可能にする。
我々は、標準ベンチマークデータセットに関する大規模な実験と、より大規模な独立したテストセットとケーススタディを構築した。
MuCoMiDは、HMDDv2.0とHMDDv3.0データセットで5倍のCV評価を少なくとも5%改善し、最先端のアプローチよりも、目に見えない病気や目に見えない病気を持つ大規模独立テストセットで少なくとも49%改善した。
論文 参考訳(メタデータ) (2021-08-08T10:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。