論文の概要: Llama-Polya: Instruction Tuning for Large Language Model based on Polya's Problem-solving
- arxiv url: http://arxiv.org/abs/2602.10597v1
- Date: Wed, 11 Feb 2026 07:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.54308
- Title: Llama-Polya: Instruction Tuning for Large Language Model based on Polya's Problem-solving
- Title(参考訳): Llama-Polya:Polyaの問題解決に基づく大規模言語モデルのインストラクションチューニング
- Authors: Unggi Lee, Yeil Jeong, Chohui Lee, Gyuri Byun, Yunseo Lee, Minji Kang, Minji Jeon,
- Abstract要約: 本稿では,Polyaの4段階問題解決フレームワークを対話構造に統合し,数学的推論を支援する命令調整型大規模言語モデルであるLlama-Polyaを紹介する。
- 参考スコア(独自算出の注目度): 0.10330682589181316
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces Llama-Polya, an instruction-tuned large language model that integrates Polya's four-step problem-solving framework into its dialogue structure to support mathematical reasoning. Mathematical problem-solving is central to students' success in mathematics education, yet many learners struggle to plan, justify, and verify their solutions. Although large language models (LLMs) show promise as intelligent tutors, they often lack structured pedagogical alignment grounded in established learning theories. To address this gap, we operationalize Polya's problem-solving framework within an instruction-tuned LLM to promote metacognitive engagement and examine the effects of pedagogy-aligned fine-tuning compared to domain-only and general-purpose instruction tuning. Built on the Llama-3.1-8B architecture, Llama-Polya was fine-tuned on synthetic math problem-solving data derived from GSM8K, structured according to Polya's four stages. We developed and evaluated multiple variants-general-purpose instruct, math-domain metamath, pedagogy-aligned polya-v2, and sequential metamath+polya-v2-using both quantitative accuracy metrics and qualitative pedagogical assessments. Results indicate that models tuned with Polya's framework and domain-specific data produced more balanced reasoning-stage distributions and fewer premature answers. Expert evaluators also observed improved pedagogical coherence and metacognitive prompting, although limitations in personalization and mathematical rigor remained. These findings suggest that pedagogy-grounded instruction tuning can enhance educational alignment and reasoning transparency in LLM-based tutoring systems.
- Abstract(参考訳): 本稿では,Polyaの4段階問題解決フレームワークを対話構造に統合し,数学的推論を支援する命令調整型大規模言語モデルであるLlama-Polyaを紹介する。
数学の問題解決は、数学教育における学生の成功の中心であるが、多くの学習者は、その解決策を計画し、正当化し、検証するのに苦労している。
大きな言語モデル(LLM)は知的な家庭教師として有望であるが、確立された学習理論に根ざした構造的な教育的アライメントを欠いていることが多い。
このギャップに対処するため、Polya の問題解決フレームワークを命令調整 LLM 内で運用し、メタ認知的エンゲージメントを促進し、ドメインのみおよび汎用的な命令チューニングと比較して、教育的な微調整の効果を検証した。
Llama-3.1-8Bアーキテクチャに基づいて構築されたLlama-Polyaは、GSM8Kから派生した合成数学の問題解決データに基づいて、Polyaの4つの段階に基づいて微調整された。
我々は,数量的精度測定と定性的教育学的評価の両方を用いて,多変種の汎用命令,数学領域メタタス,ペタゴギー整列ポリa-v2,シーケンシャルメタタス+ポリヤ-v2を開発した。
その結果、Polyaのフレームワークとドメイン固有データに調整されたモデルの方が、よりバランスの取れた推論段階の分布と、未熟な回答が少ないことが示唆された。
専門家評価官は、パーソナライゼーションや数学的厳密さの制限にもかかわらず、教育的コヒーレンスとメタ認知的促進の改善も観察した。
これらの結果は,LLMに基づく授業システムにおいて,教育的アライメントと推論の透明性を高めることができることを示唆している。
関連論文リスト
- Evaluating Large Language Models on Solved and Unsolved Problems in Graph Theory: Implications for Computing Education [4.64684924758613]
大規模言語モデルは、コンピュータ科学の先進的な材料を探究するために学生によってますます使われている。
本研究では,2つのグラフ理論問題に対する LLM の性能について検討する。
論文 参考訳(メタデータ) (2026-02-04T21:20:25Z) - Interpretability Framework for LLMs in Undergraduate Calculus [0.0]
大規模言語モデル(LLM)は、教育においてますます使われているが、その正確性だけでは、彼らの問題解決行動の品質、信頼性、教育的妥当性を捉えていない。
本稿では,LLM生成解を代表領域として用いた新しい解釈可能性フレームワークを提案する。
提案手法は, 推論フロー抽出と解を意味ラベル付き操作や概念に分解し, 即時アブレーション解析と組み合わせて, 入力サリエンスと出力安定性を評価する。
論文 参考訳(メタデータ) (2025-10-19T17:20:36Z) - A Survey of Deep Learning for Geometry Problem Solving [52.90604903858389]
幾何学的問題解決は、教育、AIの数学的能力の評価、マルチモーダル能力の評価など、様々な領域で不可欠である。
近年のディープラーニング技術、特にマルチモーダルな大規模言語モデルの出現は、この分野の研究を著しく加速させている。
論文 参考訳(メタデータ) (2025-07-16T06:03:08Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - HARDMath2: A Benchmark for Applied Mathematics Built by Students as Part of a Graduate Class [27.93059568425132]
HARDMath2は、大学院応用数学クラスの中核トピックをカバーする211のオリジナル問題のデータセットである。
このデータセットはハーバード大学のコア大学院数学コースの学生とインストラクターによって設計され、検証された。
このデータセットは、学生がクラスシラバスと整合した難しい問題を書き、洗練するよう促す、新しい協調環境を通じて構築されます。
論文 参考訳(メタデータ) (2025-05-17T00:52:49Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Performance Comparison of Large Language Models on Advanced Calculus Problems [0.0]
この研究は、ChatGPT 4o、1.5 Proを使ったGemini Advanced、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexityなど、モデルの正確性、信頼性、問題解決能力を評価することを目的としている。
結果は、モデルのパフォーマンスにおける重要なトレンドとパターンを強調し、その長所と短所の両方を明らかにします。
論文 参考訳(メタデータ) (2025-03-05T23:26:12Z) - RM-PoT: Reformulating Mathematical Problems and Solving via Program of Thoughts [13.07180561863778]
本稿では、問題修正(RM)、コード支援推論(PoT)、ドメイン認識による少ショット学習を統合した3段階のフレームワークを提案する。
提案手法はまず,入力問題を多種多様な表面形状に再構成し,構造バイアスを低減し,意味的に整合した5つの例を検索し,文脈的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-02-18T06:54:32Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models [49.23348672822087]
構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。
幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。
我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
論文 参考訳(メタデータ) (2023-10-02T15:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。