論文の概要: Innovator: Scientific Continued Pretraining with Fine-grained MoE Upcycling
- arxiv url: http://arxiv.org/abs/2507.18671v1
- Date: Thu, 24 Jul 2025 08:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.698446
- Title: Innovator: Scientific Continued Pretraining with Fine-grained MoE Upcycling
- Title(参考訳): インノベーター:微細なMoEアップサイクルで科学的なトレーニングを継続
- Authors: Ning Liao, Xiaoxing Wang, Zehao Lin, Weiyang Guo, Feng Hong, Shixiang Song, Geng Yu, Zihua Zhao, Sitao Xie, Longxuan Wei, Xiangqi Jin, Xiaohan Qin, Jiale Ma, Kai Chen, Jiangchao Yao, Zhouhan Lin, Junchi Yan, Zhiyu Li, Feiyu Xiong, Yanfeng Wang, Linfeng Zhang,
- Abstract要約: 科学的なタスクと一般的なタスクの両方に知識を持つ大きな言語モデル(LLM)は、科学的な汎用知性の基盤である。
Innovatorは、事前学習中に、事前学習した高密度LCMを微細なMixtures-of-Expertsモデルにアップサイクリングする。
53.3Bの合計パラメータと13.3Bの活性化により、InnovatorはQwen2.5-7Bを拡張し、64の専門的な科学専門家と8の活性化を行った。
- 参考スコア(独自算出の注目度): 67.98700689194291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large language model (LLM) with knowledge in both scientific and general tasks is the foundation of science general intelligence. However, directly continued pretraining an LLM using science data usually leads to catastrophic forgetting, which indicates severe degradation in general ability. In this report, we present Innovator, which solves this problem by upcycling a pre-trained dense LLM into a fine-grained Mixtures-of-Experts model during continued pretraining, where different experts are expected to learn science knowledge in different disciplines, and a shared expert is utilized for general tasks. Innovator introduces a four-stage upcycle training paradigm: (1) Scientific Expert Induction on discipline-specific data, (2) Fine-grained Expert Splitting via FFN dimension decomposition, (3) Science-Aware Routing warmup, and (4) Generalist-Scientist Integration training on hybrid datasets. Such a paradigm enables knowledge in the general domain, and different scientific disciplines can be decoupled, avoiding the negative influence among knowledge in different domains. With 53.3B total parameters and 13.3B activated, Innovator extends Qwen2.5-7B using a shared general expert and 64 specialized scientific experts with 8 activated. Trained on 300B tokens with tri-level quality-controlled data, Innovator achieves 25% average improvement across 30 scientific tasks with a win rate as 70%, while retaining 99% performance in general tasks. Furthermore, Innovator-Reason, which is post-trained from Innovator for reasoning boosting, exhibits excellent reasoning performance in solving complex scientific problems with improvements over 30%.
- Abstract(参考訳): 科学的なタスクと一般的なタスクの両方に知識を持つ大きな言語モデル(LLM)は、科学的な汎用知性の基盤である。
しかしながら、科学データを用いたLSMの直接事前訓練は、通常、破滅的な忘れ込みを招き、一般的な能力の深刻な劣化を示す。
本稿では,この問題を解決するためのイノベータについて述べる。本報告では,事前学習した高密度LCMを,異なる分野の科学知識を学習することが期待され,共有専門家が一般的なタスクに利用されるような,詳細な混合実験モデルに組み込むことによって,この問題を解決する。
Innovator は,(1) 分野別データに対する科学的エキスパート誘導,(2) FFN次元分解によるきめ細かいエキスパート分割,(3) 科学技術的ルーティングのウォームアップ,(4) ハイブリッドデータセットに対する一般科学者統合トレーニングという,4段階のアップサイクルトレーニングパラダイムを導入している。
このようなパラダイムは、一般領域における知識を可能にし、異なる分野における知識間の負の影響を回避し、異なる科学分野を分離することができる。
53.3Bの合計パラメータと13.3Bの活性化により、InnovatorはQwen2.5-7Bを拡張し、64の専門的な科学専門家と8の活性化を行った。
3レベルの品質管理データを持つ300BトークンでトレーニングされたInnovatorは、30の科学的タスクに対して平均25%の改善を実現し、勝利率は70%で、一般的なタスクでは99%のパフォーマンスを維持している。
さらに、Innovator-Reasonは推論の促進のためにInnovatorから後から訓練を受けており、30%以上の改善を伴って複雑な科学的問題の解決に優れた推論性能を示している。
関連論文リスト
- MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning [24.72798058808192]
1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。
私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。
実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
論文 参考訳(メタデータ) (2025-07-22T17:59:03Z) - Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z) - Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.518397361341556]
我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists' First Exam (SFE) ベンチマークを提示する。
SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。
実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
論文 参考訳(メタデータ) (2025-06-12T09:29:16Z) - ScienceMeter: Tracking Scientific Knowledge Updates in Language Models [79.33626657942169]
大規模言語モデル(LLM)は、科学研究を支援するためにますます使われているが、科学的進歩に関する彼らの知識は急速に時代遅れになる。
我々は,過去,現在,未来にまたがる科学的知識の更新手法を評価するための新しいフレームワークであるScienceMeterを紹介する。
論文 参考訳(メタデータ) (2025-05-30T07:28:20Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - OmniScience: A Domain-Specialized LLM for Scientific Reasoning and Discovery [12.306721865990053]
一般科学のための専門的な大規模推論モデルであるOmniScienceを紹介する。
我々は、分子を潜在的電解質溶媒または添加剤として効率よくランク付けする電池剤を開発した。
我々は,ドメイン適応型事前学習と推論に基づく知識蒸留が性能レベルを達成するために重要であることをアブレーション実験で実証した。
論文 参考訳(メタデータ) (2025-03-22T01:18:59Z) - CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning [12.396302011805755]
我々は、科学的な問題解決におけるLarge Language Models(LLM)の可能性を測定するためのベンチマークであるCURIEを紹介する。
このベンチマークでは、合計580の課題と6つの分野の専門家がキュレートしたソリューションペアを備えた10の課題が紹介されている。
CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。
論文 参考訳(メタデータ) (2025-03-14T17:53:03Z) - Matching domain experts by training from scratch on domain knowledge [5.898666039129008]
近年,大きな言語モデル (LLM) は神経科学実験の結果を予測する上で,人間の専門家より優れています。
ドメイン固有知識の13億トークンに対して,比較的小さな124MパラメータGPT-2モデルを訓練した。
数兆のトークンで訓練された大型LLMよりも桁違いに小さいにもかかわらず、小さなモデルは神経科学の結果を予測する専門家レベルのパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-15T14:50:51Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。