論文の概要: Interpretability Framework for LLMs in Undergraduate Calculus
- arxiv url: http://arxiv.org/abs/2510.17910v1
- Date: Sun, 19 Oct 2025 17:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.339165
- Title: Interpretability Framework for LLMs in Undergraduate Calculus
- Title(参考訳): 学部計算におけるLCMの解釈可能性フレームワーク
- Authors: Sagnik Dakshit, Sushmita Sinha Roy,
- Abstract要約: 大規模言語モデル(LLM)は、教育においてますます使われているが、その正確性だけでは、彼らの問題解決行動の品質、信頼性、教育的妥当性を捉えていない。
本稿では,LLM生成解を代表領域として用いた新しい解釈可能性フレームワークを提案する。
提案手法は, 推論フロー抽出と解を意味ラベル付き操作や概念に分解し, 即時アブレーション解析と組み合わせて, 入力サリエンスと出力安定性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being used in education, yet their correctness alone does not capture the quality, reliability, or pedagogical validity of their problem-solving behavior, especially in mathematics, where multistep logic, symbolic reasoning, and conceptual clarity are critical. Conventional evaluation methods largely focus on final answer accuracy and overlook the reasoning process. To address this gap, we introduce a novel interpretability framework for analyzing LLM-generated solutions using undergraduate calculus problems as a representative domain. Our approach combines reasoning flow extraction and decomposing solutions into semantically labeled operations and concepts with prompt ablation analysis to assess input salience and output stability. Using structured metrics such as reasoning complexity, phrase sensitivity, and robustness, we evaluated the model behavior on real Calculus I to III university exams. Our findings revealed that LLMs often produce syntactically fluent yet conceptually flawed solutions, with reasoning patterns sensitive to prompt phrasing and input variation. This framework enables fine-grained diagnosis of reasoning failures, supports curriculum alignment, and informs the design of interpretable AI-assisted feedback tools. This is the first study to offer a structured, quantitative, and pedagogically grounded framework for interpreting LLM reasoning in mathematics education, laying the foundation for the transparent and responsible deployment of AI in STEM learning environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育においてますます使われてきているが、その正確さだけでは、特に多段階論理、記号的推論、概念的明快さが重要である数学において、問題解決行動の品質、信頼性、教育的妥当性を捉えていない。
従来の評価手法は主に最終回答の正確さに焦点を合わせ、推論プロセスを見落としている。
このギャップに対処するために,学部の計算問題を代表領域として用いたLCM生成ソリューションを解析するための新しい解釈可能性フレームワークを提案する。
提案手法は, 推論フロー抽出と解を意味ラベル付き操作や概念に分解し, 即時アブレーション解析と組み合わせて, 入力サリエンスと出力安定性を評価する。
解析複雑性,句感度,頑健性などの構造化された指標を用いて,実際のカルキュラスI〜III大学試験におけるモデル行動を評価した。
以上の結果から,LLMは構文的にも流動的にも概念的にも欠陥のあるソリューションをしばしば生み出すことが明らかとなった。
このフレームワークは、推論失敗のきめ細かい診断を可能にし、カリキュラムアライメントをサポートし、解釈可能なAI支援フィードバックツールの設計を通知する。
これは、数学教育におけるLLM推論を解釈し、STEM学習環境におけるAIの透明で責任ある展開の基礎となる、構造化され、量的、教育的に根底にあるフレームワークを提供する最初の研究である。
関連論文リスト
- Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - KAG-Thinker: Interactive Thinking and Deep Reasoning in LLMs via Knowledge-Augmented Generation [35.555200530999365]
我々は、KAG-Thinkerを導入し、KAGをマルチターン対話型思考と、専用パラメータライト大言語モデル(LLM)を利用した深い推論フレームワークにアップグレードする。
提案手法は,複雑な問題を解くための構造化思考プロセスを構築し,推論過程の論理的一貫性と文脈的整合性を高める。
論文 参考訳(メタデータ) (2025-06-21T14:58:53Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - On the Eligibility of LLMs for Counterfactual Reasoning: A Decompositional Study [15.617243755155686]
対物推論は、大規模言語モデルの推論能力を一般化するための重要な手法として現れてきた。
本稿では, 因果関係の構築から, 逆因果関係の介入に対する推論まで, 逆因果関係の生成を分解する分解戦略を提案する。
論文 参考訳(メタデータ) (2025-05-17T04:59:32Z) - A Survey on Mathematical Reasoning and Optimization with Large Language Models [0.5439020425819]
大規模言語モデル(LLM)の最近の進歩は、AIによる数学的推論、定理証明、最適化技術を大幅に改善している。
この調査は、AIにおける数学的問題解決の進化を、初期の統計的学習アプローチから近代的なディープラーニングやトランスフォーマーに基づく方法論まで調査する。
論文 参考訳(メタデータ) (2025-03-22T10:49:32Z) - Advancing Reasoning in Large Language Models: Promising Methods and Approaches [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて著しく成功している。
複雑な推論スパンニング論理推論、数学的問題解決、コモンセンス推論、そして多段階推論を実行する能力は、人間の期待に届かない。
本調査は, LLMにおける推論向上技術に関する総合的なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-05T23:31:39Z) - Enhancing Ethical Explanations of Large Language Models through
Iterative Symbolic Refinement [5.108863224378874]
本稿では,ハイブリッド・ニューロシンボリック・テクニックが倫理的説明の論理的妥当性とアライメントをいかに向上させるかを検討する。
本稿では,大規模言語モデルと外部の後方鎖型ソルバを統合した導出型フレームワーク Logic-Explainer を提案する。
経験的分析により、Logic-Explainerは、コンテキスト内学習法とChain-of-Thoughtを通じて生成された説明を改善することができることを示した。
論文 参考訳(メタデータ) (2024-02-01T16:39:51Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。