論文の概要: PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning
- arxiv url: http://arxiv.org/abs/2510.03185v1
- Date: Fri, 03 Oct 2025 17:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.502372
- Title: PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning
- Title(参考訳): PRISM-PRISM-PRISM-hysics: Causal DAG-based Process Evaluation for Physics Reasoning
- Authors: Wanjia Zhao, Qinwei Ma, Jingzhe Shi, Shirley Wu, Jiaqi Han, Yijia Xiao, Si-Yuan Chen, Xiao Luo, Ludwig Schmidt, James Zou,
- Abstract要約: PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
- 参考スコア(独自算出の注目度): 57.868248683256574
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Benchmarks for competition-style reasoning have advanced evaluation in mathematics and programming, yet physics remains comparatively explored. Most existing physics benchmarks evaluate only final answers, which fail to capture reasoning processes, while recent stepwise methods rely on heuristic LLM-as-judge scoring or restrictive linear assumptions, limiting reliability and diagnostic validity. We introduce PRISM-Physics, a process-level evaluation framework and benchmark for complex physics reasoning problems. Solutions are represented as directed acyclic graphs (DAGs) of formulas, explicitly encoding causal dependencies among intermediate steps to enable fine-grained, interpretable, and theoretically grounded scoring. We prove the optimality of the DAG representation and the corresponding scoring policy. Combining with a fully rule-based method for symbolic formula equivalence matching that we developed, we ensure consistent validation across diverse formulations without heuristic judgments. Results show that our evaluation framework is more aligned with human experts' scoring. Experiments on state-of-the-art LLMs reveal persistent reasoning failures in physics, while step-level scoring offers both diagnostic insight and rich signals for later training. By combining structural rigor, theoretical guarantees, and symbolic validation, PRISM-Physics provides a principled foundation for advancing process-level evaluation and guiding the development of models with deeper scientific reasoning capabilities.
- Abstract(参考訳): 競争型推論のベンチマークは数学とプログラミングにおいて高度な評価がなされているが、物理学はいまだに比較的研究されている。
しかし最近の段階的な手法ではヒューリスティックなLLM-as-judgeスコアや制限的な線形仮定に頼り、信頼性と診断の妥当性を制限している。
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題に対するベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表され、中間ステップ間の因果依存性を明示的に符号化し、微粒化、解釈可能、理論的に根拠付けられたスコアを可能にする。
我々はDAG表現と対応するスコアリングポリシーの最適性を証明する。
私たちが開発した記号式同値マッチングの完全規則に基づく手法と組み合わせることで,ヒューリスティックな判断を伴わない多種多様な定式化における一貫した検証を確実にする。
その結果、評価フレームワークは、人間の専門家のスコアとより一致していることがわかった。
最先端のLSMの実験では、物理学における絶え間ない推論の失敗が示され、ステップレベルのスコアリングは、後のトレーニングのために診断的洞察と豊かな信号の両方を提供する。
PRISM-Physicsは構造的厳密性、理論的保証、記号的検証を組み合わせることで、プロセスレベルの評価を進め、より深い科学的推論能力を持つモデルの開発を導くための原則的な基礎を提供する。
関連論文リスト
- Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - PKG-DPO: Optimizing Domain-Specific AI systems with Physics Knowledge Graphs and Direct Preference Optimization [0.0]
物理知識グラフ(PKG)と直接選好最適化(DPO)を統合する新しいフレームワークであるPKG-DPOを紹介する。
PKG-DPO 17%は、KG-DPO (knowledge graph-based DPO)と比較して、制約違反が少なく、物理スコアが11%高い。
私たちの主な焦点は金属の接合ですが、このフレームワークは他のマルチスケールの物理駆動の領域にも広く適用できます。
論文 参考訳(メタデータ) (2025-08-25T18:31:03Z) - CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics [71.42168240638462]
CMPhysBenchは、凝縮物質物理学における大規模言語モデルの習熟度を評価するように設計されている。
以上の結果から,最高モデルであるGrok-4でさえ,CMPhysBench上での平均SEEDスコアが36点,精度が28%であった。
論文 参考訳(メタデータ) (2025-08-25T15:32:22Z) - Test-time Scaling Techniques in Theoretical Physics -- A Comparison of Methods on the TPBench Dataset [13.530403536762064]
本稿では,TPBench物理データセット上での一般的なテスト時間スケーリング手法について検討する。
並列スケーリング結果を改善するための,新しい記号型弱検証フレームワークを開発した。
本研究は,複雑な科学的問題に対処するための段階的シンボリック検証の力を強調した。
論文 参考訳(メタデータ) (2025-06-25T18:00:18Z) - PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models [9.097623284579836]
大規模言語モデル(LLM)は急速に進歩し、複雑な科学的問題に取り組む能力が高まっている。
この相違は、効率的かつ解釈可能な問題解決に中核となる物理原則を適用する能力において、重要なギャップを浮き彫りにする。
我々は、ガイド原理を用いて専門家が容易に解けるように設計された、新しい原理に基づく物理推論ベンチマークであるPhySenseを紹介する。
論文 参考訳(メタデータ) (2025-05-30T17:25:20Z) - PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models [33.45006997591683]
PHYBenchは、高校から物理オリンピックの難易度まで、500の物理問題のベンチマークである。
PHYBenchはオリジナルのコンテンツを通じてデータの汚染に対処し、欠陥のあるアイテムを除去するために体系的なキュレーションパイプラインを使用する。
PHYBenchはより多くのトークンを活性化し、推論モデル間のより強力な微分を提供する。
論文 参考訳(メタデータ) (2025-04-22T17:53:29Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。