論文の概要: Innovator: Scientific Continued Pretraining with Fine-grained MoE Upcycling
- arxiv url: http://arxiv.org/abs/2507.18671v1
- Date: Thu, 24 Jul 2025 08:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.698446
- Title: Innovator: Scientific Continued Pretraining with Fine-grained MoE Upcycling
- Title(参考訳): インノベーター:微細なMoEアップサイクルで科学的なトレーニングを継続
- Authors: Ning Liao, Xiaoxing Wang, Zehao Lin, Weiyang Guo, Feng Hong, Shixiang Song, Geng Yu, Zihua Zhao, Sitao Xie, Longxuan Wei, Xiangqi Jin, Xiaohan Qin, Jiale Ma, Kai Chen, Jiangchao Yao, Zhouhan Lin, Junchi Yan, Zhiyu Li, Feiyu Xiong, Yanfeng Wang, Linfeng Zhang,
- Abstract要約: 科学的なタスクと一般的なタスクの両方に知識を持つ大きな言語モデル(LLM)は、科学的な汎用知性の基盤である。
Innovatorは、事前学習中に、事前学習した高密度LCMを微細なMixtures-of-Expertsモデルにアップサイクリングする。
53.3Bの合計パラメータと13.3Bの活性化により、InnovatorはQwen2.5-7Bを拡張し、64の専門的な科学専門家と8の活性化を行った。
- 参考スコア(独自算出の注目度): 67.98700689194291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large language model (LLM) with knowledge in both scientific and general tasks is the foundation of science general intelligence. However, directly continued pretraining an LLM using science data usually leads to catastrophic forgetting, which indicates severe degradation in general ability. In this report, we present Innovator, which solves this problem by upcycling a pre-trained dense LLM into a fine-grained Mixtures-of-Experts model during continued pretraining, where different experts are expected to learn science knowledge in different disciplines, and a shared expert is utilized for general tasks. Innovator introduces a four-stage upcycle training paradigm: (1) Scientific Expert Induction on discipline-specific data, (2) Fine-grained Expert Splitting via FFN dimension decomposition, (3) Science-Aware Routing warmup, and (4) Generalist-Scientist Integration training on hybrid datasets. Such a paradigm enables knowledge in the general domain, and different scientific disciplines can be decoupled, avoiding the negative influence among knowledge in different domains. With 53.3B total parameters and 13.3B activated, Innovator extends Qwen2.5-7B using a shared general expert and 64 specialized scientific experts with 8 activated. Trained on 300B tokens with tri-level quality-controlled data, Innovator achieves 25% average improvement across 30 scientific tasks with a win rate as 70%, while retaining 99% performance in general tasks. Furthermore, Innovator-Reason, which is post-trained from Innovator for reasoning boosting, exhibits excellent reasoning performance in solving complex scientific problems with improvements over 30%.
- Abstract(参考訳): 科学的なタスクと一般的なタスクの両方に知識を持つ大きな言語モデル(LLM)は、科学的な汎用知性の基盤である。
しかしながら、科学データを用いたLSMの直接事前訓練は、通常、破滅的な忘れ込みを招き、一般的な能力の深刻な劣化を示す。
本稿では,この問題を解決するためのイノベータについて述べる。本報告では,事前学習した高密度LCMを,異なる分野の科学知識を学習することが期待され,共有専門家が一般的なタスクに利用されるような,詳細な混合実験モデルに組み込むことによって,この問題を解決する。
Innovator は,(1) 分野別データに対する科学的エキスパート誘導,(2) FFN次元分解によるきめ細かいエキスパート分割,(3) 科学技術的ルーティングのウォームアップ,(4) ハイブリッドデータセットに対する一般科学者統合トレーニングという,4段階のアップサイクルトレーニングパラダイムを導入している。
このようなパラダイムは、一般領域における知識を可能にし、異なる分野における知識間の負の影響を回避し、異なる科学分野を分離することができる。
53.3Bの合計パラメータと13.3Bの活性化により、InnovatorはQwen2.5-7Bを拡張し、64の専門的な科学専門家と8の活性化を行った。
3レベルの品質管理データを持つ300BトークンでトレーニングされたInnovatorは、30の科学的タスクに対して平均25%の改善を実現し、勝利率は70%で、一般的なタスクでは99%のパフォーマンスを維持している。
さらに、Innovator-Reasonは推論の促進のためにInnovatorから後から訓練を受けており、30%以上の改善を伴って複雑な科学的問題の解決に優れた推論性能を示している。
関連論文リスト
- Innovator-VL: A Multimodal Large Language Model for Scientific Discovery [84.15264653078826]
Innovator-VLは、様々な科学的分野の理解と推論を促進するために設計された、科学的多モーダルな大規模言語モデルである。
原理的なトレーニング設計と透過的な方法論により,データ要求を大幅に削減した強力な科学的知性が得られることを示す。
論文 参考訳(メタデータ) (2026-01-27T08:12:18Z) - Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - SciGPT: A Large Language Model for Scientific Literature Understanding and Knowledge Discovery [3.779883844533933]
本稿では、科学文献理解のためのドメイン適応モデルSciGPTと、科学的LLMを評価するためのオープンソースベンチマークSciGPTを提案する。
Qwen3アーキテクチャ上に構築されたSciGPTには、パフォーマンスと効率のバランスをとるために、(1)2段階のパイプラインによる低コストなドメイン蒸留、(2)32,000の長期的推論のために、メモリ消費を55%削減するスパース混合処理の注意機構、(3)ドメイン固有のニュアンスを統合する知識認識適応の3つの革新が含まれている。
ScienceBenchの実験結果によると、SciGPTは配列を含む中核的な科学的タスクにおいてGPT-4oを上回っている。
論文 参考訳(メタデータ) (2025-09-09T16:09:19Z) - Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:04:23Z) - MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning [24.72798058808192]
1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。
私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。
実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
論文 参考訳(メタデータ) (2025-07-22T17:59:03Z) - Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z) - Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.518397361341556]
我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists' First Exam (SFE) ベンチマークを提示する。
SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。
実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
論文 参考訳(メタデータ) (2025-06-12T09:29:16Z) - ScienceMeter: Tracking Scientific Knowledge Updates in Language Models [79.33626657942169]
大規模言語モデル(LLM)は、科学研究を支援するためにますます使われているが、科学的進歩に関する彼らの知識は急速に時代遅れになる。
我々は,過去,現在,未来にまたがる科学的知識の更新手法を評価するための新しいフレームワークであるScienceMeterを紹介する。
論文 参考訳(メタデータ) (2025-05-30T07:28:20Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - OmniScience: A Domain-Specialized LLM for Scientific Reasoning and Discovery [12.306721865990053]
一般科学のための専門的な大規模推論モデルであるOmniScienceを紹介する。
我々は、分子を潜在的電解質溶媒または添加剤として効率よくランク付けする電池剤を開発した。
我々は,ドメイン適応型事前学習と推論に基づく知識蒸留が性能レベルを達成するために重要であることをアブレーション実験で実証した。
論文 参考訳(メタデータ) (2025-03-22T01:18:59Z) - CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning [12.396302011805755]
我々は、科学的な問題解決におけるLarge Language Models(LLM)の可能性を測定するためのベンチマークであるCURIEを紹介する。
このベンチマークでは、合計580の課題と6つの分野の専門家がキュレートしたソリューションペアを備えた10の課題が紹介されている。
CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。
論文 参考訳(メタデータ) (2025-03-14T17:53:03Z) - Matching domain experts by training from scratch on domain knowledge [5.898666039129008]
近年,大きな言語モデル (LLM) は神経科学実験の結果を予測する上で,人間の専門家より優れています。
ドメイン固有知識の13億トークンに対して,比較的小さな124MパラメータGPT-2モデルを訓練した。
数兆のトークンで訓練された大型LLMよりも桁違いに小さいにもかかわらず、小さなモデルは神経科学の結果を予測する専門家レベルのパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-15T14:50:51Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。