論文の概要: SymPyBench: A Dynamic Benchmark for Scientific Reasoning with Executable Python Code
- arxiv url: http://arxiv.org/abs/2512.05954v1
- Date: Fri, 05 Dec 2025 18:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.145262
- Title: SymPyBench: A Dynamic Benchmark for Scientific Reasoning with Executable Python Code
- Title(参考訳): SymPyBench - 実行可能なPythonコードによる科学的推論のための動的ベンチマーク
- Authors: Shima Imani, Seungwhan Moon, Adel Ahmadyan, Lu Zhang, Kirmani Ahmed, Babak Damavandi,
- Abstract要約: 我々は15,045の大学レベルの物理問題(90/10%の列車/テストスプリット)の大規模総合ベンチマークを紹介する。
各問題は完全にパラメータ化され、事実上無限の入力構成をサポートする。
ベンチマークには3つの質問タイプが含まれている: MC-Symbolic (シンボルオプション付き複数選択), MC-Numerical (数値オプション付き複数選択), Free-form (オープンな応答)。
- 参考スコア(独自算出の注目度): 7.0748516420242495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce, a large-scale synthetic benchmark of 15,045 university-level physics problems (90/10% train/test split). Each problem is fully parameterized, supporting an effectively infinite range of input configurations, and is accompanied by structured, step-by-step reasoning and executable Python code that produces the ground-truth solution for any parameter set. The benchmark contains three question types: MC-Symbolic (multiple-choice with symbolic options), MC-Numerical (multiple-choice with numerical options), and free-form (open-ended responses). These diverse formats test complementary reasoning skills. By leveraging the dynamic, code-driven nature of the benchmark, we introduce three novel evaluation metrics in addition to standard accuracy: Consistency Score, Failure Rate, and Confusion Rate, that quantify variability and uncertainty across problem variants. Experiments with state-of-the-art instruction-tuned language models reveal both strengths and limitations in scientific reasoning, positioning SymPyBench as a foundation for developing more robust and interpretable reasoning systems
- Abstract(参考訳): 本稿では15,045の大学レベルの物理問題(90/10%の列車/テストスプリット)の大規模総合ベンチマークを紹介する。
それぞれの問題は完全にパラメータ化され、事実上無限の範囲の入力構成をサポートし、任意のパラメータセットに対して基本トラストソリューションを生成する構造化された、ステップバイステップの推論と実行可能なPythonコードを伴う。
このベンチマークには3つの質問タイプが含まれている: MC-Symbolic (シンボルオプション付き複数選択)、MC-Numerical (数値オプション付き複数選択)、free-form (オープンな応答)。
これらの多種多様なフォーマットは相補的推論スキルをテストする。
ベンチマークの動的でコード駆動的な性質を活用することで、一貫性スコア、失敗率、コンフュージョンレートという3つの新しい評価指標を導入します。
最先端の言語モデルを用いた実験は、科学的推論における強さと限界の両方を明らかにし、より堅牢で解釈可能な推論システムを開発する基盤としてSymphyBenchを位置づけている。
関連論文リスト
- PRiSM: An Agentic Multimodal Benchmark for Scientific Reasoning via Python-Grounded Evaluation [7.0748516420242495]
PRiSMは、基底Pythonコードによる科学的推論を評価するための、合成、完全に動的、マルチモーダルベンチマークである。
PRiSMには24750以上の大学レベルの物理学と数学の問題が含まれており、スケーラブルなエージェントベースのパイプラインであるPrismAgentを活用しています。
本稿では,摂動,記号型プログラム合成,ロバスト性,推論補正,あいまいさ解消を対象とする5つの評価課題を提案する。
論文 参考訳(メタデータ) (2025-12-05T18:14:55Z) - MathBode: Understanding LLM Reasoning with Dynamical Systems [0.0]
大規模言語モデル(LLM)における数学的推論のための動的診断法であるMathBodeを提案する。
一つのパラメータを正弦波に駆動し、モデル出力と正確な解の第一高調波応答に適合する。
5つのクローズドフォームファミリにまたがって、診断面は系統的な低域通過挙動と位相ラグを呈し、精度のみを曖昧にしている。
論文 参考訳(メタデータ) (2025-09-27T06:06:36Z) - CombiBench: Benchmarking LLM Capability for Combinatorial Mathematics [45.32204834230928]
100の問題をまとめた総合的なベンチマークであるCombiBenchを紹介します。
CombiBenchは2000年以降の問題解決に適している(画像を含むIMO 2004 P3を除く)。
また、フォーマル数学のための包括的で標準化された評価フレームワーク「ファイン・エバル」も提供する。
論文 参考訳(メタデータ) (2025-05-06T04:32:17Z) - Is Your Benchmark (Still) Useful? Dynamic Benchmarking for Code Language Models [19.06241383209599]
この課題に対処するために、新しいソリューションである動的ベンチマークフレームワークを導入します。
コード理解や推論のベンチマークが与えられた場合、我々のフレームワークは動的に各入力、すなわちプログラムを様々な意味保存突然変異で変換し、構文的に新しく、意味的に同一のベンチマークを構築する。
論文 参考訳(メタデータ) (2025-03-09T14:41:18Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Mind Reasoning Manners: Enhancing Type Perception for Generalized
Zero-shot Logical Reasoning over Text [12.988062333041398]
一般化されたゼロショット論理的推論のための新しいベンチマークであるZsLRを提案する。
問題1では、ZsLRという一般化ゼロショット論理推論のための新しいベンチマークを提案する。
問題2では,グローバル表現における型認識を改善するために,型認識モデルTaCoを提案する。
論文 参考訳(メタデータ) (2023-01-08T05:24:34Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Dynamic Prompt Learning via Policy Gradient for Semi-structured
Mathematical Reasoning [150.17907456113537]
数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。
我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。
本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
論文 参考訳(メタデータ) (2022-09-29T08:01:04Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。