論文の概要: Symbolic or Numerical? Understanding Physics Problem Solving in Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2507.01334v1
- Date: Wed, 02 Jul 2025 03:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.037341
- Title: Symbolic or Numerical? Understanding Physics Problem Solving in Reasoning LLMs
- Title(参考訳): シンボリックか数値か? 推論LDMにおける物理問題の解法を理解する
- Authors: Nifu Dan, Yujun Cai, Yiwei Wang,
- Abstract要約: 本研究では、Deepseek-R1のような高度な命令調整推論モデルを用いて、挑戦的なSciBenchベンチマークから計算した様々な物理問題に対処する。
複雑な物理問題に答える際の最先端の精度を達成するだけでなく、象徴的導出を強調する独特の推論パターンも生成する。
- 参考スコア(独自算出の注目度): 12.215295420714787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Navigating the complexities of physics reasoning has long been a difficult task for Large Language Models (LLMs), requiring a synthesis of profound conceptual understanding and adept problem-solving techniques. In this study, we investigate the application of advanced instruction-tuned reasoning models, such as Deepseek-R1, to address a diverse spectrum of physics problems curated from the challenging SciBench benchmark. Our comprehensive experimental evaluation reveals the remarkable capabilities of reasoning models. Not only do they achieve state-of-the-art accuracy in answering intricate physics questions, but they also generate distinctive reasoning patterns that emphasize on symbolic derivation. Furthermore, our findings indicate that even for these highly sophisticated reasoning models, the strategic incorporation of few-shot prompting can still yield measurable improvements in overall accuracy, highlighting the potential for continued performance gains.
- Abstract(参考訳): 物理学推論の複雑さをナビゲートすることは、長い間、Large Language Models (LLMs) にとって難しい課題であり、深い概念的理解と適応的な問題解決技法の合成を必要としてきた。
本研究では,Deepseek-R1のような先進的な命令調整推論モデルを用いて,SciBenchベンチマークから算出した多種多様な物理問題に対処する。
総合的な実験的評価により,推論モデルの顕著な能力が明らかとなった。
複雑な物理問題に答える際の最先端の精度を達成するだけでなく、象徴的導出を強調する独特の推論パターンも生成する。
さらに,これらの高度推論モデルにおいても,数発のプロンプトを戦略的に組み込むことで,全体的な精度が向上し,継続的な性能向上の可能性も浮き彫りにされている。
関連論文リスト
- PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models [9.097623284579836]
大規模言語モデル(LLM)は急速に進歩し、複雑な科学的問題に取り組む能力が高まっている。
この相違は、効率的かつ解釈可能な問題解決に中核となる物理原則を適用する能力において、重要なギャップを浮き彫りにする。
我々は、ガイド原理を用いて専門家が容易に解けるように設計された、新しい原理に基づく物理推論ベンチマークであるPhySenseを紹介する。
論文 参考訳(メタデータ) (2025-05-30T17:25:20Z) - SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [89.48883747910448]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。
このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。
最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文 参考訳(メタデータ) (2025-05-25T11:28:34Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。