論文の概要: Improving Data and Reward Design for Scientific Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.08321v2
- Date: Tue, 10 Feb 2026 12:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:43.11814
- Title: Improving Data and Reward Design for Scientific Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける科学的推論のためのデータとリワード設計の改善
- Authors: Zijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong, Peng Cheng,
- Abstract要約: 我々は、異質なオープンソース科学データをSCIデータセットに変換する大規模で体系的なデータ処理パイプラインを開発した。
SCIデータセットは、8つのSTEM被験者に対して100万の質問で構成されており、明確な検証可能な/オープンエンドの分割、スケーラブルな難易度アノテーション、そしてオープンエンドの回答の評価を運用するきめ細かいルーリックが提供されている。
- 参考スコア(独自算出の注目度): 40.51540159966056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving open-ended science questions remains challenging for large language models, particularly due to inherently unreliable supervision and evaluation. The bottleneck lies in the data construction and reward design for scientific post-training. We develop a large-scale, systematic data processing pipeline that transforms heterogeneous open-source science data into Dr. SCI dataset, which comprises of 1M questions across eight STEM subjects, with explicit verifiable/open-ended splits, scalable difficulty annotation, and fine-grained rubrics that operationalize evaluation for open-ended answers. Building on this dataset, we propose the Dr. SCI post-training pipeline, which redesigns the standard SFT -> RL workflow through three components: (i) Exploration-Expanding SFT, which broadens the model's reasoning pattern coverage prior to RL; (ii) Dynamic Difficulty Curriculum, which adapts training data to the model's evolving scientific capability; and (iii) SciRubric-Guided RL, which enables stable reinforcement learning on open-ended scientific questions via rubric-based evaluation with explicit answer correctness. Qwen3-4B-Base trained using Dr. SCI pipeline achieves 63.2 on GPQA-diamond and 32.4 on GPQA-general, consistently improves over strong post-trained baselines such as o1-mini and GPT-4o, demonstrating substantial gains in scientific reasoning, especially in open-ended settings.
- Abstract(参考訳): オープンエンドの科学問題の解決は、大きな言語モデルにとって、特に本質的に信頼性の低い監督と評価のため、依然として困難である。
ボトルネックは、科学的なポストトレーニングのためのデータ構築と報酬設計にある。
我々は、異質なオープンソース科学データをSCIデータセットに変換する大規模で体系的なデータ処理パイプラインを開発し、これは8つのSTEM被験者に100万の質問から成っている。
このデータセットに基づいて、標準的なSFT-> RLワークフローを3つのコンポーネントで再設計する、Dr. SCIポストトレーニングパイプラインを提案する。
(i)RL以前のモデル推論パターンの範囲を広げる探索拡張SFT
二 モデルの進化する科学的能力に訓練データを適応させる動的難易度カリキュラム
3)SciRubric-Guided RLは,解答の正しさを明示したルーリックに基づく評価を通じて,オープンエンドの科学的質問に対する安定的な強化学習を可能にする。
SCIパイプラインを使用してトレーニングされたQwen3-4B-Baseは、GPQAダイアモンドで63.2、GPQAで2.4、o1-miniやGPT-4oのようなトレーニング後の強力なベースラインで一貫して改善され、特にオープンエンド環境での科学的推論において顕著に向上した。
関連論文リスト
- DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems [21.193573505360266]
DSAEvalは、285の多様なデータセットから得られた641の現実世界のデータサイエンス問題からなるベンチマークである。
DSAEvalには,(1)テキストや視覚を含む複数のモードからの観察をエージェントが解釈できるマルチモーダル環境知覚,(2)実世界のデータサイエンスプロジェクトの反復的・累積的性質を反映するマルチクエリインタラクション,(3)推論,コード,結果の全体的評価を提供するマルチ次元評価の3つの特徴がある。
論文 参考訳(メタデータ) (2026-01-20T04:44:36Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning [32.21228080662089]
1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。
私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。
実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
論文 参考訳(メタデータ) (2025-07-22T17:59:03Z) - Foundation Models for Spatio-Temporal Data Science: A Tutorial and Survey [69.0648659029394]
時空間(ST)データサイエンスは、都市コンピューティング、気候科学、インテリジェントトランスポートといった領域における複雑なシステムを理解するのに不可欠である。
研究者は、様々なSTタスクに対する適応性と一般化を高めるために、時空間モデル(STFM)の概念を探求し始めている。
STFMは、データセンシング、管理、マイニングなど、STデータサイエンスのワークフロー全体を強化し、より包括的でスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-12T09:42:18Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。