論文の概要: Toward a Benchmark for Controllable Simulation of Imperfect Students with Large Language Models
- arxiv url: http://arxiv.org/abs/2605.25601v1
- Date: Mon, 25 May 2026 08:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.533752
- Title: Toward a Benchmark for Controllable Simulation of Imperfect Students with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた不完全な学生の制御可能シミュレーションのためのベンチマークに向けて
- Authors: Alexander Apartsin, Omri Sason, Yehudit Aperstein,
- Abstract要約: 大規模言語モデルは、既知のスキルコンポーネントで生徒をシミュレートすることで、教師教育を支援することができる。
本稿では,他者を抑えつつ,ある程度のスキルを維持できる言語モデルについて検討する。
- 参考スコア(独自算出の注目度): 43.0484058393522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Teacher education requires deliberate practice with learners who exhibit identifiable strengths, weaknesses, and partial mastery. Large language models could support such practice by simulating students with known skill components, enabling teachers to rehearse explanations, diagnoses, and instructional responses. For this purpose, however, the central requirement is neither to maximize benchmark accuracy nor to suppress isolated facts, but to control model behavior so that it reflects a specified skill profile. This paper investigates whether prompted language models can be steered to retain some skills while suppressing others. We introduce a benchmark-oriented framework in which an explicit skill vector represents a simulated student, prompt-based control specifies retained and missing competencies, and behavior is evaluated using profile-alignment metrics, retained-versus-forgotten comparisons, and cross-skill calibration analyses. The results show that selective partial mastery can be induced and measured in a structured mathematics setting, although the degree of controllability remains model-dependent. These findings position controllable learner simulation as a distinct research problem at the intersection of teacher education, educational simulation, and language-model control.
- Abstract(参考訳): 教師教育は、識別可能な強み、弱点、部分的な熟達を示す学習者との故意な実践を必要とする。
大規模な言語モデルは、既知のスキルコンポーネントで生徒をシミュレートすることで、教師が説明、診断、指導応答をリハーサルすることができる。
しかし、この目的のためには、ベンチマークの精度を最大化し、孤立した事実を抑えるのではなく、特定のスキルプロファイルを反映するようにモデル動作を制御することが中心的な要件である。
本稿では,他者を抑えつつ,ある程度のスキルを維持できる言語モデルについて検討する。
本稿では,模擬学生を明示的スキルベクトルで表現するベンチマーク指向のフレームワークを提案する。
その結果、制御可能性の程度はモデルに依存しているものの、選択的な部分的マスターは構造化された数学環境で誘導され、測定可能であることが示された。
これらの知見は,教師教育,教育シミュレーション,言語モデル制御の交点において,制御可能な学習者シミュレーションを別の研究課題として位置づけている。
関連論文リスト
- Controllable User Simulation [41.65602738642653]
この研究は、因果推論問題として制御可能なシミュレーションを定式化する。
本研究では, 教師付き微調整による訓練シミュレータの標準的な実践が, 構造的に偏りのあるモデルをもたらすことを示す。
本稿では,事前制御,ステップワイズ動的制御,方針条件付き直接学習など,実践的なトレーニング緩和を提案する。
論文 参考訳(メタデータ) (2026-05-12T04:44:29Z) - From Untamed Black Box to Interpretable Pedagogical Orchestration: The Ensemble of Specialized LLMs Architecture for Adaptive Tutoring [0.0]
教育対話で使用されるモノリシック大規模言語モデル(LLM)は、教育的決定が暗黙的で監査が難しい「ブラックボックス」として振る舞うことが多い。
本稿では,意思決定と発話を分離する特殊化LLMS(ES-LLMS)アーキテクチャについて紹介する。
論文 参考訳(メタデータ) (2026-03-25T06:38:19Z) - Optimizing LLM Annotation of Classroom Discourse through Multi-Agent Orchestration [0.21410799064827235]
大規模言語モデル(LLM)は、教育データを注釈付けするためのスケーラブルなツールとしてますます位置づけられている。
しかし, シングルパスLCMの出力は, ハイテイクな教育施設では信頼性が低いことが示唆されている。
このスケールと妥当性の緊張は、現代の教育データ科学の核心にある。
論文 参考訳(メタデータ) (2026-03-08T16:51:03Z) - "The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework [16.96094045628127]
CoT(Chain-of-Thought)推論は、大きな言語モデル(LLM)に優れた能力を与えるが、通常は禁止的なパラメータスケールを必要とする。
CoT蒸留は、推論技術をコンパクトな学生モデル(SLM)に伝達するための有望なパラダイムとして登場した。
我々は,教師の勾配を動的に重み付けすることで,教師の指導を適応的に融合させるフレームワークCompactを紹介する。
論文 参考訳(メタデータ) (2026-01-20T14:05:19Z) - Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。