論文の概要: UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models
- arxiv url: http://arxiv.org/abs/2511.08873v1
- Date: Thu, 13 Nov 2025 01:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.272644
- Title: UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models
- Title(参考訳): UCO:大規模言語モデルを用いた適応学習のための多段階対話型強化学習手法
- Authors: Shouang Wei, Min Zhang, Xin Lin, Bo Jiang, Kun Kuang, Zhongxiang Dai,
- Abstract要約: 大規模言語モデル(LLM)は、教育環境において、回答提供者からインテリジェントな家庭教師へとシフトしている。
最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。
これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
- 参考スコア(独自算出の注目度): 59.693733170193944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are shifting from answer providers to intelligent tutors in educational settings, yet current supervised fine-tuning methods only learn surface teaching patterns without dynamic adaptation capabilities. Recent reinforcement learning approaches address this limitation but face two critical challenges. First, they evaluate teaching effectiveness solely based on whether students produce correct outputs, unable to distinguish whether students genuinely understand or echo teacher-provided answers during interaction. Second, they cannot perceive students' evolving cognitive states in real time through interactive dialogue, thus failing to adapt teaching strategies to match students' cognitive levels dynamically. We propose the Unidirectional Cognitive Optimization (UCO) method to address these challenges. UCO uses a multi-turn interactive reinforcement learning paradigm where the innovation lies in two synergistic reward functions: the Progress Reward captures students' cognitive advancement, evaluating whether students truly transition from confusion to comprehension, while the Scaffold Reward dynamically identifies each student's Zone of Proximal Development (ZPD), encouraging teachers to maintain productive teaching within this zone. We evaluate UCO by comparing it against 11 baseline models on BigMath and MathTutorBench benchmarks. Experimental results demonstrate that our UCO model outperforms all models of equivalent scale and achieves performance comparable to advanced closed-source models. The code and data are available at https://github.com/Mind-Lab-ECNU/UCO.
- Abstract(参考訳): 大規模言語モデル(LLM)は、回答提供者からインテリジェントなチューターへと、教育環境でシフトしつつあるが、現在の教師付き微調整手法は、動的適応機能なしで表面的な教育パターンを学習するのみである。
最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。
まず,授業効果を学生が正しいアウトプットを得られるかどうかのみに基づいて評価した。
第2に,対話的対話を通じて,学生の認知状態をリアルタイムで知覚することはできず,生徒の認知レベルを動的に整合させる教育戦略の適応に失敗する。
これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
プログレス・リワード(Progress Reward)は、生徒の認知の進歩を捉え、生徒が混乱から理解へと真に移行するかどうかを評価し、スキャフォールド・リワード(Scaffold Reward)は、各生徒の近親開発ゾーン(ZPD)を動的に識別し、教師がこのゾーン内で生産的な教育を維持することを奨励する。
我々は、BigMathとMathTutorBenchベンチマークの11のベースラインモデルと比較することにより、UCOを評価した。
実験結果から,ユネスコモデルは等価スケールの全モデルより優れ,高度なクローズドソースモデルに匹敵する性能が得られることが示された。
コードとデータはhttps://github.com/Mind-Lab-ECNU/UCOで公開されている。
関連論文リスト
- Improving Question Embeddings with Cognitive Representation Optimization for Knowledge Tracing [77.14348157016518]
KTモデリングの研究は、既存の未更新の学生の相互作用の記録に基づいて、将来の学生のパフォーマンスを予測することに焦点を当てている。
動的プログラミングアルゴリズムを用いて認知表現の構造を最適化する知識追跡型認知表現最適化(CRO-KT)モデルを提案する。
論文 参考訳(メタデータ) (2025-04-05T09:32:03Z) - Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Learn to Teach: Sample-Efficient Privileged Learning for Humanoid Locomotion over Diverse Terrains [6.967583364984562]
本研究は,教師と学生の政策学習を統合したワンステージ・トレーニング・フレームワーク,Learn to Teach (L2T)を提案する。
提案手法は, サンプルをリサイクルし, 共有力学を用いて学習軌跡を同期させ, サンプルの複雑さと学習時間を著しく低減する。
深度推定モジュールを使わずに12以上の困難な地形上で, ゼロショットのシミュレートとロバストな性能を実証し, シミュレーションとハードウェアテストによりRL変種(L2T-RL)を検証した。
論文 参考訳(メタデータ) (2024-02-09T21:16:43Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Concurrent Training Improves the Performance of Behavioral Cloning from
Observation [10.939683083130616]
デモから学ぶことは、ロボットが新しいスキルを身につけるための効率的な方法として広く利用されている。
観察から学ぶことは、ラベルのないデモ(例えばビデオ)を使って模倣学習を行う手段を提供する。
これに対する1つのアプローチは、観察からの行動クローニング(BCO)である。
本稿では,BCO の新たな理論的解析,修正 BCO* の導入,および半教師付き設定において,BCO* は逆ダイナミクスモデルとエキスパートポリシーの両方の見積もりを同時に改善可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T21:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。