論文の概要: From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.15607v1
- Date: Wed, 21 May 2025 15:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.714193
- Title: From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning
- Title(参考訳): 問題解決から問題解決へ:強化学習を用いた教育とLLMの調整
- Authors: David Dinucu-Jianu, Jakub Macina, Nico Daheim, Ido Hakimi, Iryna Gurevych, Mrinmaya Sachan,
- Abstract要約: 大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 76.09281171131941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can transform education, but their optimization for direct question-answering often undermines effective pedagogy which requires strategically withholding answers. To mitigate this, we propose an online reinforcement learning (RL)-based alignment framework that can quickly adapt LLMs into effective tutors using simulated student-tutor interactions by emphasizing pedagogical quality and guided problem-solving over simply giving away answers. We use our method to train a 7B parameter tutor model without human annotations which reaches similar performance to larger proprietary models like LearnLM. We introduce a controllable reward weighting to balance pedagogical support and student solving accuracy, allowing us to trace the Pareto frontier between these two objectives. Our models better preserve reasoning capabilities than single-turn SFT baselines and can optionally enhance interpretability through thinking tags that expose the model's instructional planning.
- Abstract(参考訳): 大規模言語モデル (LLM) は教育を変革することができるが、直接質問応答の最適化は、戦略的に答えを守らなければならない効果的な教育を損なうことが多い。
そこで本稿では, 学生と教師の相互作用をシミュレーションし, 学習の質を重視し, 単に回答を与えるのではなく, 問題解決を指導することで, 学生と教師の対話を円滑に行うことができるオンライン強化学習(RL)ベースのアライメントフレームワークを提案する。
我々は,LearningLMのような大規模プロプライエタリなモデルに類似した性能に達するような,人間のアノテーションを使わずに7Bパラメータのチュータモデルをトレーニングするために,本手法を使用する。
教育支援のバランスと生徒の問題解決の精度のバランスをとるために、制御可能な報酬重み付けを導入し、これらの2つの目的の間にあるパレートフロンティアを追跡できるようにする。
我々のモデルは、単ターンSFTベースラインよりも推論能力を保ち、モデルの指導計画を公開する思考タグによって、任意に解釈可能性を高めることができる。
関連論文リスト
- Training LLM-based Tutors to Improve Student Learning Outcomes in Dialogues [46.60683274479208]
本稿では,大規模言語モデル(LLM)を訓練し,学生の正当性を最大化するチューター発話を生成する手法を提案する。
モデルにより生成された教師発話が,学生の正答率を著しく高めることを示す。
論文 参考訳(メタデータ) (2025-03-09T03:38:55Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - LLM-based Cognitive Models of Students with Misconceptions [55.29525439159345]
本稿では,この2つの要件を満たすためにLLM(Large Language Models)を命令調整できるかどうかを検討する。
真正な学生ソリューションパターンを反映したデータセットを生成する新しいPythonライブラリであるMalAlgoPyを紹介する。
我々の洞察は、AIに基づく学生モデルの理解を高め、効果的な適応学習システムへの道を開く。
論文 参考訳(メタデータ) (2024-10-16T06:51:09Z) - Towards the Pedagogical Steering of Large Language Models for Tutoring: A Case Study with Modeling Productive Failure [36.83786872708736]
1対1の授業は、最も効果的な教育方法の1つである。
我々は、LSMプロンプトを最適化し、遷移グラフとして表される事前定義されたマルチターンチューリング計画に従うアルゴリズムであるStratLを開発した。
ケーススタディとして,先進的で効果的な学習設計であるProductive Failure (PF) に続く,高校数学のプロトタイプチューターを作成する。
論文 参考訳(メタデータ) (2024-10-03T16:15:41Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Pedagogical Alignment of Large Language Models [24.427653091950994]
大規模言語モデル(LLM)は、問題解決プロセスを通じて生徒を導くのではなく、即座に答えを提供する。
本稿では,このアライメント目的を達成するために,LHP(Learning from Human Preferences)アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2024-02-07T16:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。