論文の概要: TeachLM: Post-Training LLMs for Education Using Authentic Learning Data
- arxiv url: http://arxiv.org/abs/2510.05087v1
- Date: Mon, 06 Oct 2025 17:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.040407
- Title: TeachLM: Post-Training LLMs for Education Using Authentic Learning Data
- Title(参考訳): TeachLM: 認証学習データを用いた学習後LLMの教育
- Authors: Janos Perczel, Jin Chow, Dorottya Demszky,
- Abstract要約: TeachLMは、パラメータ効率の良い最先端モデルの微調整を用いた教育に最適化された大きな言語モデルである。
パラメータ効率のよい微調整を用いて,高忠実度合成学生と教師の対話を生成できる真正な学生モデルを構築する。
本評価は,学習データの微調整が会話や教育のパフォーマンスを著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 4.600044635815686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The promise of generative AI to revolutionize education is constrained by the pedagogical limits of large language models (LLMs). A major issue is the lack of access to high-quality training data that reflect the learning of actual students. Prompt engineering has emerged as a stopgap, but the ability of prompts to encode complex pedagogical strategies in rule-based natural language is inherently limited. To address this gap we introduce TeachLM - an LLM optimized for teaching through parameter-efficient fine-tuning of state-of-the-art models. TeachLM is trained on a dataset comprised of 100,000 hours of one-on-one, longitudinal student-tutor interactions maintained by Polygence, which underwent a rigorous anonymization process to protect privacy. We use parameter-efficient fine-tuning to develop an authentic student model that enables the generation of high-fidelity synthetic student-tutor dialogues. Building on this capability, we propose a novel multi-turn evaluation protocol that leverages synthetic dialogue generation to provide fast, scalable, and reproducible assessments of the dialogical capabilities of LLMs. Our evaluations demonstrate that fine-tuning on authentic learning data significantly improves conversational and pedagogical performance - doubling student talk time, improving questioning style, increasing dialogue turns by 50%, and greater personalization of instruction.
- Abstract(参考訳): 教育に革命をもたらすための生成AIの約束は、大きな言語モデル(LLM)の教育的限界によって制約される。
大きな問題は、実際の学生の学習を反映した高品質なトレーニングデータへのアクセスの欠如である。
プロンプトエンジニアリングはストップギャップとして登場したが、ルールベースの自然言語で複雑な教育戦略をエンコードするプロンプトの能力は本質的に制限されている。
このギャップに対処するために、TeachLM - パラメータ効率の良い最先端モデルの微調整を通して教えることに最適化されたLLM - を紹介します。
TeachLMは、プライバシーを守るために厳格な匿名化プロセスを実行したPolygenceによって維持されている、1対1の縦方向の学生と教師のインタラクションの10万時間からなるデータセットに基づいて訓練されている。
パラメータ効率のよい微調整を用いて,高忠実度合成学生と教師の対話を生成できる真正な学生モデルを構築する。
そこで本研究では,LLMの対話能力の高速かつスケーラブルで再現可能な評価を実現するために,合成対話生成を利用した新しいマルチターン評価プロトコルを提案する。
評価の結果,真正学習データの微調整は,会話と教育のパフォーマンスを著しく向上させ,学生の会話時間を2倍にし,質問スタイルを改善し,対話のターンを50%増やし,指導のパーソナライズを向上することが示された。
関連論文リスト
- From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [76.09281171131941]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - Alignment Drift in CEFR-prompted LLMs for Interactive Spanish Tutoring [0.0]
本稿では,第二言語学習における適応型チューターとしてのLarge Language Models(LLMs)の可能性について検討する。
スペイン語の教師と学生の対話を,7Bから12Bまでの大きさの命令調整型オープンソースのLLMを用いてシミュレートした。
次に、チューターモデルからの出力を用いて、3つの習熟度レベルにわたるテキストの難易度を制御するCEFRベースのプロンプトの有効性を評価する。
論文 参考訳(メタデータ) (2025-05-13T08:50:57Z) - Training LLM-based Tutors to Improve Student Learning Outcomes in Dialogues [46.60683274479208]
本稿では,大規模言語モデル(LLM)を訓練し,学生の正当性を最大化するチューター発話を生成する手法を提案する。
モデルにより生成された教師発話が,学生の正答率を著しく高めることを示す。
論文 参考訳(メタデータ) (2025-03-09T03:38:55Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。