論文の概要: Dissecting Physics Reasoning in Small Language Models: A Multi-Dimensional Analysis from an Educational Perspective
- arxiv url: http://arxiv.org/abs/2505.20707v1
- Date: Tue, 27 May 2025 04:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.406512
- Title: Dissecting Physics Reasoning in Small Language Models: A Multi-Dimensional Analysis from an Educational Perspective
- Title(参考訳): 小言語モデルにおける解離物理推論:教育的観点からの多次元解析
- Authors: Nicy Scaria, Silvester John Joseph Kennedy, Diksha Seth, Deepak Subramani,
- Abstract要約: 小型言語モデル (SLM) は計算効率とアクセシビリティを提供する。
本研究では,最先端SLMの物理推論能力について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Small Language Models (SLMs) offer computational efficiency and accessibility, making them promising for educational applications. However, their capacity for complex reasoning, particularly in domains such as physics, remains underexplored. This study investigates the high school physics reasoning capabilities of state-of-the-art SLMs (under 4 billion parameters), including instruct versions of Llama 3.2, Phi 4 Mini, Gemma 3, and Qwen series. We developed a comprehensive physics dataset from the OpenStax High School Physics textbook, annotated according to Bloom's Taxonomy, with LaTeX and plaintext mathematical notations. A novel cultural contextualization approach was applied to a subset, creating culturally adapted problems for Asian, African, and South American/Australian contexts while preserving core physics principles. Using an LLM-as-a-judge framework with Google's Gemini 2.5 Flash, we evaluated answer and reasoning chain correctness, along with calculation accuracy. The results reveal significant differences between the SLMs. Qwen 3 1.7B achieved high `answer accuracy' (85%), but `fully correct reasoning' was substantially low (38%). The format of the mathematical notation had a negligible impact on performance. SLMs exhibited varied performance across the physics topics and showed a decline in reasoning quality with increasing cognitive and knowledge complexity. In particular, the consistency of reasoning was largely maintained in diverse cultural contexts, especially by better performing models. These findings indicate that, while SLMs can often find correct answers, their underlying reasoning is frequently flawed, suggesting an overreliance on pattern recognition. For SLMs to become reliable educational tools in physics, future development must prioritize enhancing genuine understanding and the generation of sound, verifiable reasoning chains over mere answer accuracy.
- Abstract(参考訳): 小型言語モデル (SLM) は計算効率とアクセシビリティを提供し、教育応用に期待できる。
しかし、複雑な推論の能力、特に物理学のような領域では、まだ解明されていない。
本研究では,Llama 3.2,Phi 4 Mini,Gemma 3,Qwenシリーズのインストラクション版を含む,最先端のSLM(40億のパラメータ)の物理推論能力について検討した。
我々は,Bloomの分類法に従って注釈を付したOpenStax High School Physicsの教科書から,LaTeXと平文の数学的表記を用いた総合的な物理データセットを開発した。
新たな文化的文脈化アプローチがサブセットに適用され、中核的な物理原理を保ちながら、アジア、アフリカ、南アメリカの文脈に文化的に適応した問題を生み出した。
Google の Gemini 2.5 Flash を用いた LLM-as-a-judge フレームワークを用いて,解答と推論チェーンの正しさと計算精度を評価した。
その結果,SLM間に有意な差異が認められた。
Qwen 3 1.7Bは高い「回答精度」(85%)を達成したが、「完全に正しい推論」は実質的に低かった(38%)。
数式表記の形式は性能に無視できない影響を与えた。
SLMは物理学のトピックによって様々な性能を示し、認知と知識の複雑さの増大に伴う推論品質の低下を示した。
特に、推論の一貫性は様々な文化的文脈、特に優れたモデルによって維持された。
これらの結果から,SLMは正しい解答をしばしば見出すが,その根底にある推論は頻繁に欠陥があり,パターン認識への過度な依存が示唆されている。
SLMが物理学における信頼性の高い教育ツールとなるためには、真の理解と音の生成を単に答えの正確さよりも優先する必要がある。
関連論文リスト
- Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Using machine learning to measure evidence of students' sensemaking in physics courses [5.509349550209279]
教育において、問題解決の正しさは、しばしば学生の学習と不適切に混同される。
本研究では,物理問題に対する解法を記述した説明書から,学生の身体感覚形成の証拠を定量化する手法を提案する。
我々は,ロジスティック回帰を用いた3つのユニークな言語エンコーダを実装し,2023年のタフツ大学の入門物理学講座の実際の学生385名について,デプロイ可能性の分析を行った。
論文 参考訳(メタデータ) (2025-03-19T18:49:21Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding [65.28200190598082]
本稿では、慎重に設計された物理概念理解タスクであるPhysorCoについて要約評価を行う。
我々のタスクは、物理的現象を抽象的に記述するグリッド形式入力の使用によって問題を緩和する。
1)GP-4oを含む最先端のLLM, 40%遅れの遅れ, 2) グリッドタスクで失敗するとオウム, o1 現象が LLM に存在するが, 自然言語で同じ概念を記述し, 認識することができる。
論文 参考訳(メタデータ) (2025-02-13T04:00:03Z) - UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。
物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。
既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文 参考訳(メタデータ) (2025-02-01T06:42:02Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。