Fugu-MT 論文翻訳(概要): MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

論文の概要: MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

arxiv url: http://arxiv.org/abs/2507.16812v1
Date: Tue, 22 Jul 2025 17:59:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-23 21:34:14.247189
Title: MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning
Title（参考訳）: MegaScience:科学推論のためのトレーニング後のデータセットのフロンティアを推し進める
Authors: Run-Ze Fan, Zengzhi Wang, Pengfei Liu,
Abstract要約: 1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
参考スコア（独自算出の注目度）: 24.72798058808192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scientific reasoning is critical for developing AI scientists and supporting human researchers in advancing the frontiers of natural science discovery. However, the open-source community has primarily focused on mathematics and coding while neglecting the scientific domain, largely due to the absence of open, large-scale, high-quality, verifiable scientific reasoning datasets. To bridge this gap, we first present TextbookReasoning, an open dataset featuring truthful reference answers extracted from 12k university-level scientific textbooks, comprising 650k reasoning questions spanning 7 scientific disciplines. We further introduce MegaScience, a large-scale mixture of high-quality open-source datasets totaling 1.25 million instances, developed through systematic ablation studies that evaluate various data selection methodologies to identify the optimal subset for each publicly available scientific dataset. Meanwhile, we build a comprehensive evaluation system covering diverse subjects and question types across 15 benchmarks, incorporating comprehensive answer extraction strategies to ensure accurate evaluation metrics. Our experiments demonstrate that our datasets achieve superior performance and training efficiency with more concise response lengths compared to existing open-source scientific datasets. Furthermore, we train Llama3.1, Qwen2.5, and Qwen3 series base models on MegaScience, which significantly outperform the corresponding official instruct models in average performance. In addition, MegaScience exhibits greater effectiveness for larger and stronger models, suggesting a scaling benefit for scientific tuning. We release our data curation pipeline, evaluation system, datasets, and seven trained models to the community to advance scientific reasoning research.
Abstract（参考訳）: 科学推論は、AI科学者を育成し、人間の研究者が自然科学発見のフロンティアを前進させるのを支援するために重要である。しかし、オープンソースコミュニティは、主に科学分野を無視しながら、数学とコーディングに重点を置いている。このギャップを埋めるために、私たちはまずTextbookReasoningというオープンデータセットを提示しました。さらに,大規模で高品質なオープンソースデータセットの混合であるMegaScienceについても紹介し,さまざまなデータ選択手法を評価する体系的アブレーション研究を通じて,公開可能な各科学データセットの最適なサブセットを特定する。一方,15のベンチマークにおいて,多様な被験者や質問タイプを対象とした総合的な評価システムを構築し,正確な評価基準を確保するための総合的な回答抽出戦略を取り入れた。我々の実験は、既存のオープンソース科学データセットと比較して、より簡潔な応答長で、我々のデータセットが優れたパフォーマンスとトレーニング効率を達成することを示した。さらに,Llama3.1,Qwen2.5,Qwen3シリーズのベースモデルをMegaScienceでトレーニングし,対応する公式インストラクションモデルを平均性能で大幅に上回った。加えて、MegaScienceはより大きく、より強力なモデルに対してより大きな効果を示し、科学的チューニングのスケーリングの利点を示唆している。データキュレーションパイプライン、評価システム、データセット、および7つのトレーニングされたモデルをコミュニティにリリースし、科学的推論の研究を進めています。

関連論文リスト

HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights [72.82973609312178]
HiPerRAGは360万以上の科学論文から知識をインデクシングし取り出すワークフローである。コアとなるのはマルチモーダル文書解析のための高スループットモデルであるOreoと、クエリ対応エンコーダの微調整アルゴリズムであるColTrastだ。 HiPerRAGは、既存の科学的質問応答ベンチマークと、この研究で導入された2つの新しいベンチマークで堅牢なパフォーマンスを提供する。
論文参考訳（メタデータ） (2025-05-07T22:50:23Z)
SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models [36.724471610075696]
SciHorizonはAI4Scienceの可読性を評価するために設計された総合的なアセスメントフレームワークである。まず、品質、FAIRネス、説明可能性、コンプライアンスの4つの重要な側面を含む、AI対応の科学データを評価するための一般化可能なフレームワークを紹介します。我々は、地球、生命、材料科学のためのAI対応データセットのレコメンデーションリストを提示し、この分野に新しく独自の貢献をする。
論文参考訳（メタデータ） (2025-03-12T11:34:41Z)
SciClaimHunt: A Large Dataset for Evidence-based Scientific Claim Verification [7.421845364041002]
本稿では,SciClaimHuntとSciClaimHunt_Numの2つの大規模データセットを紹介する。本稿では,これらのデータセットの有効性を評価するために,科学的クレーム検証に適したベースラインモデルをいくつか提案する。 SciClaimHuntとSciClaimHunt_Numで訓練されたモデルと既存の科学的クレーム検証データセットを比較し,その品質と信頼性を評価する。
論文参考訳（メタデータ） (2025-02-14T08:34:26Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。 2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文参考訳（メタデータ） (2024-06-20T22:03:21Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。 MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文参考訳（メタデータ） (2024-06-10T15:19:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。