論文の概要: Rewarding How Models Think Pedagogically: Integrating Pedagogical Reasoning and Thinking Rewards for LLMs in Education
- arxiv url: http://arxiv.org/abs/2601.14560v1
- Date: Wed, 21 Jan 2026 00:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.194886
- Title: Rewarding How Models Think Pedagogically: Integrating Pedagogical Reasoning and Thinking Rewards for LLMs in Education
- Title(参考訳): モデルが教育学的にどのように考えるか:教育におけるLLMのための教育的推論と思考的リワードの統合
- Authors: Unggi Lee, Jiyeong Bae, Jaehyeon Park, Haeun Park, Taejun Park, Younghoon Jeon, Sungmin Cho, Junbo Koh, Yeil Jeong, Gyeonggeon Lee,
- Abstract要約: 大規模言語モデル(LLM)は、インテリジェントなチューリングシステムとしてますます多くデプロイされている。
近年,LLM教育者を対象とした強化学習手法が提案されているが,これらの手法は可視応答の最適化にのみ焦点をあてている。
PedagogicalRL-Thinkingは、教育におけるLLMの推論に教育的アライメントを拡張するフレームワークである。
- 参考スコア(独自算出の注目度): 6.168298906927059
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as intelligent tutoring systems, yet research on optimizing LLMs specifically for educational contexts remains limited. Recent works have proposed reinforcement learning approaches for training LLM tutors, but these methods focus solely on optimizing visible responses while neglecting the model's internal thinking process. We introduce PedagogicalRL-Thinking, a framework that extends pedagogical alignment to reasoning LLMs in education through two novel approaches: (1) Pedagogical Reasoning Prompting, which guides internal reasoning using domain-specific educational theory rather than generic instructions; and (2) Thinking Reward, which explicitly evaluates and reinforces the pedagogical quality of the model's reasoning traces. Our experiments reveal that domain-specific, theory-grounded prompting outperforms generic prompting, and that Thinking Reward is most effective when combined with pedagogical prompting. Furthermore, models trained only on mathematics tutoring dialogues show improved performance on educational benchmarks not seen during training, while preserving the base model's factual knowledge. Our quantitative and qualitative analyses reveal that pedagogical thinking reward produces systematic reasoning trace changes, with increased pedagogical reasoning and more structured instructional decision-making in the tutor's thinking process.
- Abstract(参考訳): 大規模言語モデル(LLM)は知的な学習システムとしてますます普及しているが、LLMを教育的文脈に最適化する研究は限られている。
最近の研究は、LLM教師の育成のための強化学習手法を提案しているが、これらの手法は、モデルの内部思考プロセスを無視しながら、可視応答の最適化にのみ焦点をあてている。
PedagogicalRL-Thinking は,教育における LLM の推論に対する教育的アライメントを,(1) 一般的な指示ではなく,ドメイン固有の教育理論を用いた内部推論を導く Pedagogical Reasoning Prompting ,(2) モデル推論トレースの教育的品質を明示的に評価し,強化するThinking Reward の2つの新しいアプローチによって拡張するフレームワークである。
提案実験により, 領域特異的な理論的なプロンプトは汎用的なプロンプトよりも優れており, 教育的プロンプトと組み合わせた場合, シンキング・リワードが最も効果的であることが判明した。
さらに、数学のチュータリングダイアログのみで訓練されたモデルは、基礎モデルの事実的知識を保ちながら、トレーニング中に見えない教育ベンチマークのパフォーマンスが向上したことを示している。
定量的および定性的な分析により,教育者の思考過程における教育的思考報酬は,教育的推論の増大とより構造化された指導的意思決定を伴って,系統的推論の痕跡変化を生んでいることが明らかとなった。
関連論文リスト
- Improving Student-AI Interaction Through Pedagogical Prompting: An Example in Computer Science Education [1.1517315048749441]
大規模言語モデル(LLM)アプリケーションは、興奮と懸念の両方を引き起こした。
最近の研究は、LLMの誤用が学習の妨げとなることを一貫して強調している。
本研究の目的は,LLMの学習改善を効果的に促進する方法を学生に教えることである。
論文 参考訳(メタデータ) (2025-06-23T20:39:17Z) - A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models [103.88578274567784]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模共振モデルの強化微調整を強化する直感的かつ効果的な方法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識するためのコンテキスト内モチベーションとして機能する。
MeRFはRLVRベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Pedagogy-R1: Pedagogically-Aligned Reasoning Model with Balanced Educational Benchmark [6.024228339466189]
大規模推論モデル(LRM)は、数学やプログラミングのような構造化領域において強い性能を示す。
LRMは教育的コヒーレンスと現実的な教育行動に欠けることが多い。
Pedagogy-R1は、3つのイノベーションを通じて、教室での利用にLRMを適用するフレームワークである。
論文 参考訳(メタデータ) (2025-05-24T02:18:35Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。
本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文 参考訳(メタデータ) (2025-04-21T07:48:20Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。