論文の概要: SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification
- arxiv url: http://arxiv.org/abs/2606.04579v1
- Date: Wed, 03 Jun 2026 08:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.621479
- Title: SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification
- Title(参考訳): SCI-PRM:科学推論検証のためのプロセスリワードモデル認識ツール
- Authors: Xiangyu Zhao, Hengyuan Zhao, Yiheng Wang, Wanghan Xu, Yuhao Zhou, Qinglong Cao, Zhiwang Zhou, Lei Bai, Wenlong Zhang, Xiao-Ming Wu,
- Abstract要約: そこで我々は、Chain-of-Toolトラジェクトリを特徴とする大規模データセットを構築し、科学的ツールの実行による推論を明確にインターリーブする。
次に、Sci-PRMと呼ばれる効率的な報酬モデルをトレーニングし、ツールの選択、実行精度、結果解釈を1つの推論の各ステップで詳細に監視する。
- 参考スコア(独自算出の注目度): 47.20109789089479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Process Reward Models (PRMs) have achieved remarkable success in mathematical reasoning, their application in complex scientific domains-such as biology, chemistry, and physics remains largely unexplored. Scientific problems demand not only logical rigor but also factual consistency and the precise usage of domain-specific tools, areas where current models often suffer from hallucinations and lack of verification. In this paper, we first construct SCIPRM70K, a large-scale dataset featuring Chain-of-Tool trajectories that explicitly interleave reasoning with the execution of scientific tools. Building upon this, we train an efficient reward model called Sci-PRM to provide fine-grained supervision on tool selection, execution accuracy, and result interpretation at each step in one inference. Experiments demonstrate that Sci-PRM significantly enhances foundation models in two key aspects: (1) it enables effective test-time scaling via Best-of-N selection; and (2) when integrated into Reinforcement Learning, it serves as a dense reward signal that mitigates the critical issue of advantage disappearance, allowing the model to break through existing performance ceilings.
- Abstract(参考訳): プロセス・リワード・モデル (Process Reward Models, PRMs) は数学的推論において顕著な成功を収めてきたが、生物学、化学、物理学といった複雑な科学分野への応用はいまだに未解明のままである。
科学的問題には、論理的な厳密さだけでなく、事実整合性や、現在のモデルが幻覚や検証の欠如に悩まされる領域であるドメイン固有のツールの正確な使用が要求される。
本稿では,まずSCIPRM70K(Chain-of-Tool トラジェクトリを特徴とする大規模データセット)を構築する。
そこで我々は、Sci-PRMと呼ばれる効率的な報酬モデルを構築し、ツールの選択、実行精度、結果の解釈を1つの推論の各ステップで詳細に監視する。
Sci-PRMは,(1)Best-of-N選択による効果的なテストタイムスケーリングを可能にすること,(2)Reinforcement Learningに統合された場合,利点の消失という重要な問題を緩和し,モデルが既存のパフォーマンス天井を破れるような高密度な報酬信号として機能すること,の2つの重要な側面において,基礎モデルを大幅に強化することを示した。
関連論文リスト
- Grounding LLMs in Scientific Discovery via Embodied Actions [84.11877211907647]
大規模言語モデル (LLMs) は科学的発見に大きな可能性を示しているが、理論的推論と物理シミュレーションのギャップを埋めるのに苦労している。
EmbodiedActは、確立された科学ソフトウェアを、密着した知覚・実行ループによる実施行動の基盤化により、アクティブな実施エージェントに変換するフレームワークである。
論文 参考訳(メタデータ) (2026-02-24T07:37:18Z) - Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision [15.806243963561776]
Sci-CoEは2段階の科学的共進化フレームワークであり、モデルが解法と検証器の両方として自己進化することを可能にする。
最初の段階では、モデルは注釈付きデータの小さなセットを使用して、検証器の正当性判定アンカーを確立する。
第2段階では、コンセンサス、信頼性、多様性を共同で考慮し、大規模な自己評価を促進する幾何学的報酬機構を導入する。
論文 参考訳(メタデータ) (2026-02-12T16:46:00Z) - Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks [48.105258051884384]
本稿では,モデルの自己補正能力を高めるための2段階トレーニングフレームワークを提案する。
最初の段階では、マルチターン対話戦略がモデルをガイドし、長いチェーン・オブ・シント(CoT)データを生成する。
第2段階では、データの分散を動的に最適化する難易度の高い拒絶サンプリング機構を採用している。
論文 参考訳(メタデータ) (2026-01-09T08:19:11Z) - CoSineVerifier: Tool-Augmented Answer Verification for Computation-Oriented Scientific Questions [32.14674040685995]
本稿では,外部ルーリックを利用して正確な計算と記号の単純化を行うツール拡張検証器モデルを提案する。
STEM科目、一般QA、長文推論タスクで行った実験は、モデルの強力な一般化を示している。
論文 参考訳(メタデータ) (2025-12-01T03:08:43Z) - NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents [65.85967483058705]
科学法発見のための強力なツールとして、大規模な言語モデルが登場している。
このタスクの既存のベンチマークは、基本的な方法論のトリレンマに悩まされている。
12の物理領域にわたる324の科学法発見タスクからなるベンチマークであるNewtonBenchを紹介する。
論文 参考訳(メタデータ) (2025-10-08T16:12:11Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Improving Molecular Modeling with Geometric GNNs: an Empirical Study [56.52346265722167]
本稿では,異なる標準化手法,(2)グラフ作成戦略,(3)補助的なタスクが性能,拡張性,対称性の強制に与える影響に焦点をあてる。
本研究の目的は,分子モデリングタスクに最適なモデリングコンポーネントの選択を研究者に案内することである。
論文 参考訳(メタデータ) (2024-07-11T09:04:12Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。