論文の概要: Pedagogy-R1: Pedagogically-Aligned Reasoning Model with Balanced Educational Benchmark
- arxiv url: http://arxiv.org/abs/2505.18467v1
- Date: Sat, 24 May 2025 02:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.44299
- Title: Pedagogy-R1: Pedagogically-Aligned Reasoning Model with Balanced Educational Benchmark
- Title(参考訳): Pedagogy-R1:Pedagogically-Aligned Reasoning Model with Balanced Educational Benchmark
- Authors: Unggi Lee, Jaeyong Lee, Jiyeong Bae, Yeil Jeong, Junbo Koh, Gyeonggeon Lee, Gunho Lee, Taekyung Ahn, Hyeoncheol Kim,
- Abstract要約: 大規模推論モデル(LRM)は、数学やプログラミングのような構造化領域において強い性能を示す。
LRMは教育的コヒーレンスと現実的な教育行動に欠けることが多い。
Pedagogy-R1は、3つのイノベーションを通じて、教室での利用にLRMを適用するフレームワークである。
- 参考スコア(独自算出の注目度): 6.024228339466189
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large reasoning models (LRMs) show strong performance in structured domains such as mathematics and programming; however, they often lack pedagogical coherence and realistic teaching behaviors. To bridge this gap, we introduce Pedagogy-R1, a framework that adapts LRMs for classroom use through three innovations: (1) a distillation-based pipeline that filters and refines model outputs for instruction-tuning, (2) the Well-balanced Educational Benchmark (WBEB), which evaluates performance across subject knowledge, pedagogical knowledge, tracing, essay scoring, and teacher decision-making, and (3) a Chain-of-Pedagogy (CoP) prompting strategy for generating and eliciting teacher-style reasoning. Our mixed-method evaluation combines quantitative metrics with qualitative analysis, providing the first systematic assessment of LRMs' pedagogical strengths and limitations.
- Abstract(参考訳): 大規模推論モデル(LRM)の最近の進歩は、数学やプログラミングのような構造化領域において強い性能を示すが、教育的コヒーレンスや現実的な教育行動は欠如していることが多い。
このギャップを埋めるために,(1)授業指導のためのモデル出力をフィルタリング・精算する蒸留パイプライン,(2)教科知識,教科知識,トレーシング,エッセイ評価,教員決定に関するパフォーマンスを評価するバランスのとれた教育ベンチマーク,(3)教師の指導スタイル推論の生成・引き起こし戦略を推し進めるCoP(Chain-of-Pedagogy)の3つの革新を通じて,授業利用にLRMを適用するフレームワークであるPedagogy-R1を導入する。
我々の混合メソッド評価は定量的メトリクスと定性的分析を組み合わせることで、LEMの教育的強度と限界を初めて体系的に評価する。
関連論文リスト
- From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [76.09281171131941]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。
本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文 参考訳(メタデータ) (2025-04-21T07:48:20Z) - Fine-Tuning Large Language Models for Educational Support: Leveraging Gagne's Nine Events of Instruction for Lesson Planning [5.022835754140817]
本研究では,Gagne's Nine Events of Instructionに組み込むことで,大規模言語モデル(LLM)が教師の準備をいかに向上させるかを検討する。
この研究は、数学のカリキュラム標準とガグネの指導イベントに基づく包括的なデータセットの作成から始まる。
第2の方法は、特別なデータセットを使用してオープンソースモデルを微調整し、教育コンテンツ生成と分析能力を向上する。
論文 参考訳(メタデータ) (2025-03-12T11:22:13Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [76.1634959528817]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Unifying AI Tutor Evaluation: An Evaluation Taxonomy for Pedagogical Ability Assessment of LLM-Powered AI Tutors [7.834688858839734]
我々は,現在最先端の大規模言語モデル (LLM) がAI家庭教師として有効かどうかを検討する。
本研究では,キーラーニング科学の原則に基づく8つの教育次元を持つ統一的な評価分類法を提案する。
MRBench - 192の会話と1,596の回答を含む新しい評価ベンチマーク。
論文 参考訳(メタデータ) (2024-12-12T16:24:35Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Teachers' perspective on fostering computational thinking through
educational robotics [0.6410282200111983]
創造的問題解決モデル(CCPS)は、教育ロボティクス学習活動の設計を改善するために用いられる。
本研究の目的は,教師によるモデルの有効性を検証することである。
教師は、CCPSモデルはスキルを育成するのに有用であるが、特定の介入方法がCT関連認知過程に与える影響を認識できなかった。
論文 参考訳(メタデータ) (2021-05-11T12:31:44Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。