論文の概要: MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning
- arxiv url: http://arxiv.org/abs/2507.16812v1
- Date: Tue, 22 Jul 2025 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.247189
- Title: MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning
- Title(参考訳): MegaScience:科学推論のためのトレーニング後のデータセットのフロンティアを推し進める
- Authors: Run-Ze Fan, Zengzhi Wang, Pengfei Liu,
- Abstract要約: 1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。
私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。
実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
- 参考スコア(独自算出の注目度): 24.72798058808192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific reasoning is critical for developing AI scientists and supporting human researchers in advancing the frontiers of natural science discovery. However, the open-source community has primarily focused on mathematics and coding while neglecting the scientific domain, largely due to the absence of open, large-scale, high-quality, verifiable scientific reasoning datasets. To bridge this gap, we first present TextbookReasoning, an open dataset featuring truthful reference answers extracted from 12k university-level scientific textbooks, comprising 650k reasoning questions spanning 7 scientific disciplines. We further introduce MegaScience, a large-scale mixture of high-quality open-source datasets totaling 1.25 million instances, developed through systematic ablation studies that evaluate various data selection methodologies to identify the optimal subset for each publicly available scientific dataset. Meanwhile, we build a comprehensive evaluation system covering diverse subjects and question types across 15 benchmarks, incorporating comprehensive answer extraction strategies to ensure accurate evaluation metrics. Our experiments demonstrate that our datasets achieve superior performance and training efficiency with more concise response lengths compared to existing open-source scientific datasets. Furthermore, we train Llama3.1, Qwen2.5, and Qwen3 series base models on MegaScience, which significantly outperform the corresponding official instruct models in average performance. In addition, MegaScience exhibits greater effectiveness for larger and stronger models, suggesting a scaling benefit for scientific tuning. We release our data curation pipeline, evaluation system, datasets, and seven trained models to the community to advance scientific reasoning research.
- Abstract(参考訳): 科学推論は、AI科学者を育成し、人間の研究者が自然科学発見のフロンティアを前進させるのを支援するために重要である。
しかし、オープンソースコミュニティは、主に科学分野を無視しながら、数学とコーディングに重点を置いている。
このギャップを埋めるために、私たちはまずTextbookReasoningというオープンデータセットを提示しました。
さらに,大規模で高品質なオープンソースデータセットの混合であるMegaScienceについても紹介し,さまざまなデータ選択手法を評価する体系的アブレーション研究を通じて,公開可能な各科学データセットの最適なサブセットを特定する。
一方,15のベンチマークにおいて,多様な被験者や質問タイプを対象とした総合的な評価システムを構築し,正確な評価基準を確保するための総合的な回答抽出戦略を取り入れた。
我々の実験は、既存のオープンソース科学データセットと比較して、より簡潔な応答長で、我々のデータセットが優れたパフォーマンスとトレーニング効率を達成することを示した。
さらに,Llama3.1,Qwen2.5,Qwen3シリーズのベースモデルをMegaScienceでトレーニングし,対応する公式インストラクションモデルを平均性能で大幅に上回った。
加えて、MegaScienceはより大きく、より強力なモデルに対してより大きな効果を示し、科学的チューニングのスケーリングの利点を示唆している。
データキュレーションパイプライン、評価システム、データセット、および7つのトレーニングされたモデルをコミュニティにリリースし、科学的推論の研究を進めています。
関連論文リスト
- SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models [36.724471610075696]
SciHorizonはAI4Scienceの可読性を評価するために設計された総合的なアセスメントフレームワークである。
まず、品質、FAIRネス、説明可能性、コンプライアンスの4つの重要な側面を含む、AI対応の科学データを評価するための一般化可能なフレームワークを紹介します。
我々は、地球、生命、材料科学のためのAI対応データセットのレコメンデーションリストを提示し、この分野に新しく独自の貢献をする。
論文 参考訳(メタデータ) (2025-03-12T11:34:41Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。