論文の概要: Cultivating Helpful, Personalized, and Creative AI Tutors: A Framework for Pedagogical Alignment using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.20335v1
- Date: Sun, 27 Jul 2025 15:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.390188
- Title: Cultivating Helpful, Personalized, and Creative AI Tutors: A Framework for Pedagogical Alignment using Reinforcement Learning
- Title(参考訳): 支援、パーソナライズ、創造的なAIテュータを育成する:強化学習を用いた教育的アライメントのためのフレームワーク
- Authors: Siyu Song, Wentao Liu, Ye Lu, Ruohua Zhang, Tao Liu, Jinze Lv, Xinyun Wang, Aimin Zhou, Fei Tan, Bo Jiang, Hao Hao,
- Abstract要約: EduAlignは、より大きな言語モデル(LLM)をより効果的で責任ある教育アシスタントへと導くために設計されたフレームワークである。
最初の段階では、8kの教育相互作用のデータセットをキュレートし、それらを手動でアノテートし、自動で3つの重要な教育次元:ヘルプフルネス、パーソナライゼーション、クリエイティビティの3つに分類する。
第2段階では、HPC-RMを報奨信号として利用し、2kの多様なプロンプトのセット上で、グループ相対ポリシー最適化(GRPO)を用いて事前学習したLLMを微調整する。
- 参考スコア(独自算出の注目度): 17.558663729465692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of large language models (LLMs) into education presents unprecedented opportunities for scalable personalized learning. However, standard LLMs often function as generic information providers, lacking alignment with fundamental pedagogical principles such as helpfulness, student-centered personalization, and creativity cultivation. To bridge this gap, we propose EduAlign, a novel framework designed to guide LLMs toward becoming more effective and responsible educational assistants. EduAlign consists of two main stages. In the first stage, we curate a dataset of 8k educational interactions and annotate them-both manually and automatically-along three key educational dimensions: Helpfulness, Personalization, and Creativity (HPC). These annotations are used to train HPC-RM, a multi-dimensional reward model capable of accurately scoring LLM outputs according to these educational principles. We further evaluate the consistency and reliability of this reward model. In the second stage, we leverage HPC-RM as a reward signal to fine-tune a pre-trained LLM using Group Relative Policy Optimization (GRPO) on a set of 2k diverse prompts. We then assess the pre- and post-finetuning models on both educational and general-domain benchmarks across the three HPC dimensions. Experimental results demonstrate that the fine-tuned model exhibits significantly improved alignment with pedagogical helpfulness, personalization, and creativity stimulation. This study presents a scalable and effective approach to aligning LLMs with nuanced and desirable educational traits, paving the way for the development of more engaging, pedagogically aligned AI tutors.
- Abstract(参考訳): 大規模言語モデル(LLM)の教育への統合は、スケーラブルなパーソナライズされた学習に前例のない機会をもたらす。
しかし、標準的なLCMは一般的な情報提供者として機能し、支援、学生中心のパーソナライゼーション、創造的な栽培といった基本的な教育原則に沿わない。
このギャップを埋めるため,LLMをより効果的かつ責任ある教育支援者へと導くための新しいフレームワークであるEduAlignを提案する。
EduAlignは2つの主要なステージから構成される。
第1段階では、8kの教育相互作用のデータセットをキュレートし、手動で注釈を付け、ヘルプフルネス、パーソナライゼーション、クリエイティビティ(HPC)の3つの重要な教育次元を自動生成する。
これらのアノテーションは、これらの教育原則に従ってLLM出力を正確に評価できる多次元報酬モデルであるHPC-RMのトレーニングに使用される。
この報酬モデルの一貫性と信頼性をさらに評価する。
第2段階では、HPC-RMを報奨信号として利用し、2kの多様なプロンプトのセット上で、グループ相対ポリシー最適化(GRPO)を用いて事前学習したLLMを微調整する。
次に、3つのHPC次元にわたる教育用および一般用両方のベンチマークにおいて、ファインタニング前のモデルと後モデルを評価する。
実験結果から, 微調整モデルでは, 教育的有用性, パーソナライゼーション, 創造性刺激との整合性が有意に向上していることが示唆された。
本研究は,LLMを,より魅力的で教育的な特性と整合させるための,スケーラブルで効果的なアプローチを提案する。
関連論文リスト
- From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [76.09281171131941]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - Fine-Tuning Large Language Models for Educational Support: Leveraging Gagne's Nine Events of Instruction for Lesson Planning [5.022835754140817]
本研究では,Gagne's Nine Events of Instructionに組み込むことで,大規模言語モデル(LLM)が教師の準備をいかに向上させるかを検討する。
この研究は、数学のカリキュラム標準とガグネの指導イベントに基づく包括的なデータセットの作成から始まる。
第2の方法は、特別なデータセットを使用してオープンソースモデルを微調整し、教育コンテンツ生成と分析能力を向上する。
論文 参考訳(メタデータ) (2025-03-12T11:22:13Z) - Training LLM-based Tutors to Improve Student Learning Outcomes in Dialogues [46.60683274479208]
本稿では,大規模言語モデル(LLM)を訓練し,学生の正当性を最大化するチューター発話を生成する手法を提案する。
モデルにより生成された教師発話が,学生の正答率を著しく高めることを示す。
論文 参考訳(メタデータ) (2025-03-09T03:38:55Z) - Advantage-Guided Distillation for Preference Alignment in Small Language Models [37.1672515839325]
そこで本研究では,小言語モデルのアライメントプロセスの指針として,教師のLLMを活用することを提案する。
実験の結果、これらの2つの手法は、SLMのアライメントを良好に改善し、より大きなものとの性能ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2025-02-25T07:47:22Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - LLM-powered Multi-agent Framework for Goal-oriented Learning in Intelligent Tutoring System [54.71619734800526]
GenMentorは、ITS内で目標指向でパーソナライズされた学習を提供するために設計されたマルチエージェントフレームワークである。
学習者の目標を、カスタムのゴール・トゥ・スキルデータセットでトレーニングされた微調整LDMを使用して、必要なスキルにマッピングする。
GenMentorは、個々の学習者のニーズに合わせて探索・描画・統合機構で学習内容を調整する。
論文 参考訳(メタデータ) (2025-01-27T03:29:44Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails [43.19453208130667]
大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。
本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。
MWPTutor は LLM を用いて事前定義された有限状態トランスデューサの状態空間を補う。
論文 参考訳(メタデータ) (2024-02-14T14:53:56Z) - Pedagogical Alignment of Large Language Models [24.427653091950994]
大規模言語モデル(LLM)は、問題解決プロセスを通じて生徒を導くのではなく、即座に答えを提供する。
本稿では,このアライメント目的を達成するために,LHP(Learning from Human Preferences)アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2024-02-07T16:15:59Z) - Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。