論文の概要: MiST: Understanding the Role of Mid-Stage Scientific Training in Developing Chemical Reasoning Models
- arxiv url: http://arxiv.org/abs/2512.21231v1
- Date: Wed, 24 Dec 2025 15:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.812532
- Title: MiST: Understanding the Role of Mid-Stage Scientific Training in Developing Chemical Reasoning Models
- Title(参考訳): MiST:化学共鳴モデル開発における中級科学教育の役割の理解
- Authors: Andres M Bran, Tong Xie, Shai Pranesh, Jeffrey Meng, Xuan Vu Nguyen, Jeremy Goumaz, David Ming Segura, Ruizhi Xu, Dongzhan Zhou, Wenjie Zhang, Bram Hoex, Philippe Schwaller,
- Abstract要約: 大規模言語モデルは、ルールベースの報酬でオンラインの微調整を通じて推論機能を開発することができる。
強化学習は、ベースモデルが既に答えを正すために無視できない確率を割り当てている場合にのみ成功する。
この研究は、化学推論能力の出現とこれらの前提条件が化学にとって何を意味するかを研究する。
- 参考スコア(独自算出の注目度): 12.75090175625814
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models can develop reasoning capabilities through online fine-tuning with rule-based rewards. However, recent studies reveal a critical constraint: reinforcement learning succeeds only when the base model already assigns non-negligible probability to correct answers -- a property we term 'latent solvability'. This work investigates the emergence of chemical reasoning capabilities and what these prerequisites mean for chemistry. We identify two necessary conditions for RL-based chemical reasoning: 1) Symbolic competence, and 2) Latent chemical knowledge. We propose mid-stage scientific training (MiST): a set of mid-stage training techniques to satisfy these, including data-mixing with SMILES/CIF-aware pre-processing, continued pre-training on 2.9B tokens, and supervised fine-tuning on 1B tokens. These steps raise the latent-solvability score on 3B and 7B models by up to 1.8x, and enable RL to lift top-1 accuracy from 10.9 to 63.9% on organic reaction naming, and from 40.6 to 67.4% on inorganic material generation. Similar results are observed for other challenging chemical tasks, while producing interpretable reasoning traces. Our results define clear prerequisites for chemical reasoning training and highlight the broader role of mid-stage training in unlocking reasoning capabilities.
- Abstract(参考訳): 大規模言語モデルは、ルールベースの報酬でオンラインの微調整を通じて推論機能を開発することができる。
しかし、最近の研究では、強化学習が成功するのは、ベースモデルが解答を正すために既に無視できない確率を割り当てている場合のみである。
この研究は、化学推論能力の出現とこれらの前提条件が化学にとって何を意味するかを研究する。
RLに基づく化学推論に必要な2つの条件を同定する。
1)シンボリック・コンピテンス、及び
2) 化学知識の欠如。
本研究では,SMILES/CIF対応前処理によるデータミキシング,2.9Bトークンの事前トレーニング,1Bトークンの微調整など,これらを満たすための中段階の科学訓練手法を提案する。
これらのステップは、3Bモデルと7Bモデルにおける潜在可溶性スコアを1.8倍に引き上げ、RLがトップ1の精度を有機反応命名で10.9から63.9%、無機物質生成で40.6から67.4%に引き上げることを可能にする。
同様の結果は、他の難しい化学課題に対して観察され、解釈可能な推論トレースを生成する。
本研究は,化学推論訓練の前提条件を明確に定義し,中間段階における推論能力の解放における幅広い役割を明らかにするものである。
関連論文リスト
- ChemATP: A Training-Free Chemical Reasoning Framework for Large Language Models [16.47599278238931]
ChemATPは推論エンジンから化学知識を分離するフレームワークである。
ChemATPはトレーニングなしのベースラインを著しく上回り、最先端のトレーニングベースモデルに匹敵する。
論文 参考訳(メタデータ) (2025-12-22T10:21:40Z) - Reasoning-Enhanced Large Language Models for Molecular Property Prediction [19.593493317167646]
分子特性予測は、薬物発見と物質科学にとって不可欠である。
既存のアプローチは、限定的な解釈可能性、クロスタスクの一般化の貧弱、化学的推論能力の欠如に悩まされている。
分子特性予測に化学推論を組み込んだ多モーダル大言語モデルMPPReasonerを提案する。
論文 参考訳(メタデータ) (2025-10-11T15:05:45Z) - oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning [44.36582860924775]
有機化学における有機機構推論のための,最初の大規模で専門家によるベンチマークであるoMeBenchを紹介する。
また,ステップレベルの論理と化学的類似性を組み合わせた動的評価フレームワークoMeSを提案する。
論文 参考訳(メタデータ) (2025-10-09T03:13:31Z) - ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions [52.79349601462865]
ChemOrchは化学的に接地した命令応答対を合成するフレームワークである。
ChemOrchは、生成したタスクに対して、制御可能な多様性と難易度を実現する。
論文 参考訳(メタデータ) (2025-09-20T05:43:58Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - ChemAlgebra: Algebraic Reasoning on Chemical Reactions [16.93639996082923]
ディープラーニングモデルが推論タスクに取り組む能力を持っているかどうかは不明だ。
ChemAlgebraは、ディープラーニングモデルの推論能力を測定するためのベンチマークである。
論文 参考訳(メタデータ) (2022-10-05T08:34:44Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。