論文の概要: PEARL: Training Socratic Tutors with Pedagogically Aligned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.29582v1
- Date: Thu, 28 May 2026 08:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.066667
- Title: PEARL: Training Socratic Tutors with Pedagogically Aligned Reinforcement Learning
- Title(参考訳): PEARL: Pedagogically Aligned Reinforcement Learning によるソクラテス・チューターの育成
- Authors: Qikai Chang, Zhenrong Zhang, Linbo Chen, Pengfei Hu, Jianshu Zhang, Youhui Guo, Jun Du,
- Abstract要約: 大規模言語モデル(LLM)は、教育的な家庭教師として有望であるが、効果的な家庭教師は問題解決以上のものを必要としている。
本稿では,ソクラテス学習エージェントを学習するための学習フレームワークであるPEARLを提案する。
- 参考スコア(独自算出の注目度): 18.478727410749205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown promise as educational tutors, yet effective tutoring requires more than solving problems: it must provide progressive Socratic guidance and balance multiple pedagogical objectives across multi-turn interactions. However, training such tutors remains challenging due to limited-fidelity and weakly controllable student simulation, under-specified pedagogical reward modeling, and unstable multi-objective optimization. To overcome these limitations, we propose PEARL, a pedagogically aligned reinforcement learning framework for training Socratic tutoring agents, consisting of three key components. First, we introduce a controllable student simulator that decouples latent cognitive states from response generation to model diverse abilities and misconceptions. Second, we develop a generative reward model that jointly evaluates pedagogical quality and objective correctness for policy optimization. Finally, we propose a stable multi-objective RL scheme that discretizes rewards within each dimension and aggregates normalized advantages across dimensions, preventing high-variance objectives from dominating updates. Experiments on multiple benchmarks show that PEARL achieves the best performance among open-source models and remains competitive with leading proprietary LLMs, despite using only a 30B policy model.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育教師として有望であるが、効果的な家庭教師は、問題解決以上のものを必要としている。
しかし, 教師の訓練は, 限られた忠実度と弱制御可能な学生シミュレーション, 未指定の教育報酬モデル, 不安定な多目的最適化などにより, 依然として困難である。
これらの制約を克服するために,3つの重要な構成要素からなるソクラテス学習エージェントを学習するための,教育的に整合した強化学習フレームワークであるPEARLを提案する。
まず、反応生成から多様な能力や誤解をモデルに、潜在認知状態を分離する制御可能な学生シミュレータを提案する。
第2に、政策最適化のための教育的品質と客観的な正当性を共同で評価する生成的報酬モデルを開発する。
最後に,各次元の報酬を離散化し,各次元にまたがる正規化の利点を集約する安定多目的RL方式を提案する。
複数のベンチマークの実験によると、PEARLは30Bポリシーモデルしか使用していないにもかかわらず、オープンソースモデルの中で最高のパフォーマンスを達成し、主要なプロプライエタリなLLMと競合し続ける。
関連論文リスト
- Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe [53.40076304466524]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)をまたいで一般化する統一OPDフレームワークであるUni-OPDを提案する。
具体的には、学生の立場から、学習中の情報発信状態の探索を促進するために、2つのデータバランス戦略を採用する。
我々は,正しい軌道と間違った軌道の順序の整合性を取り戻すために,結果誘導マージンキャリブレーション機構を開発した。
論文 参考訳(メタデータ) (2026-05-05T12:15:21Z) - SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution [82.31558282651811]
複雑な対人相互作用をナビゲートするソーシャルインテリジェンスは、言語エージェントに根本的な課題を提示する。
既存のアプローチでは、言語モデルを直接使用してエピソードレベルの報酬を分配する。
協調ゲーム理論に基づく新しい原理的枠組みであるSAVOIRを提案する。
論文 参考訳(メタデータ) (2026-04-21T02:08:25Z) - Harmonizing Multi-Objective LLM Unlearning via Unified Domain Representation and Bidirectional Logit Distillation [11.723777730116831]
大規模言語モデル(LLM)のアンラーニングは、モデルから有害またはプライバシをリードする情報を除去するために不可欠である。
既存の未学習の手法は主にこれらの目標の限られたサブセットに焦点を当てている。
複数の未学習目標を調和させる新しい多目的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-16T19:09:17Z) - PCHC: Enabling Preference Conditioned Humanoid Control via Multi-Objective Reinforcement Learning [50.63196995993855]
多目的強化学習(MORL)を活用してPCHC(Preference-Conditioned Humanoid Control)を実現する新しいフレームワークを提案する。
当社のフレームワークは、単一の嗜好条件のポリシーを多種多様な行動を示すために有効である。
論文 参考訳(メタデータ) (2026-03-25T07:55:37Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment [1.8552770604791606]
相補的な報酬パラダイムを統合するハイブリッド報酬モデリングフレームワークを提案する。
ハイブリッドおよびマルチアスペクト報酬モデルを適用する際に、異なるマルチモーダルベンチマーク間で一貫した改善を示す。
3Bファミリーで最高のパフォーマンスモデルでは、一般および数学の推論タスクで平均9.5%の改善を実現しています。
論文 参考訳(メタデータ) (2025-10-06T18:53:23Z) - Cultivating Helpful, Personalized, and Creative AI Tutors: A Framework for Pedagogical Alignment using Reinforcement Learning [17.558663729465692]
EduAlignは、より大きな言語モデル(LLM)をより効果的で責任ある教育アシスタントへと導くために設計されたフレームワークである。
最初の段階では、8kの教育相互作用のデータセットをキュレートし、それらを手動でアノテートし、自動で3つの重要な教育次元:ヘルプフルネス、パーソナライゼーション、クリエイティビティの3つに分類する。
第2段階では、HPC-RMを報奨信号として利用し、2kの多様なプロンプトのセット上で、グループ相対ポリシー最適化(GRPO)を用いて事前学習したLLMを微調整する。
論文 参考訳(メタデータ) (2025-07-27T15:56:29Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。