論文の概要: Simulating Students or Sycophantic Problem Solving? On Misconception Faithfulness of LLM Simulators
- arxiv url: http://arxiv.org/abs/2605.12748v1
- Date: Tue, 12 May 2026 20:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.687255
- Title: Simulating Students or Sycophantic Problem Solving? On Misconception Faithfulness of LLM Simulators
- Title(参考訳): 学生のシミュレーションとサイコファンティック問題解決 : LLMシミュレータの誤認識について
- Authors: Heejin Do, Shashank Sonkar, Mrinmaya Sachan,
- Abstract要約: 大規模言語モデル(LLM)は、生徒のような反応を流線型に生成できるため、AI教師や人間教育者のトレーニングや評価のための模擬学生として魅力的である。
しかし、このようなシミュレータは、実際の学生と出力の類似性によって評価され、相互作用中に一貫性のある誤解を持つ学生のように振る舞うかどうかによって評価される。
シミュレーションが誤解駆動の信念状態を維持しているかどうかを判断し、フィードバックが誤解に対処した場合に選択的に更新する。
- 参考スコア(独自算出の注目度): 55.617099475539305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can fluently generate student-like responses, making them attractive as simulated students for training and evaluating AI tutors and human educators. Yet such simulators are typically evaluated by output similarity to real students, not by whether they behave like students with coherent misconceptions during interaction. We introduce a controlled framework for evaluating misconception faithfulness, whether a simulator maintains a misconception-driven belief state and updates selectively when feedback addresses the underlying misconception. Central to our framework is a misconception-contrastive feedback protocol that compares targeted feedback against two controls: misaligned feedback (targeting a different but plausible misconception) and generic feedback (only identifying answer is wrong). We propose Selective Flip Score (SFS), which quantifies how much more often a simulator flips its answer under targeted feedback than under contrastive controls. Across seven LLMs (4B-120B), multiple datasets, and prompting strategies, simulators exhibit near-zero SFS, correcting their answers at similarly high rates regardless of feedback relevance. Further analyses reveal a sycophantic failure mode: models behave less like students with misconceptions but more like problem-solvers who treat any corrective signal as a cue to abandon the simulated belief and re-solve from internal knowledge. To address this, we develop a post-training pipeline spanning supervised fine-tuning (SFT), preference optimization, and reinforcement learning (RL) with an SFS-aligned reward; SFT yields notable gains up to +0.56, and SFS-aligned RL provides more consistent improvements than preference optimization. Our results establish misconception faithfulness as a challenging yet trainable property, motivating a shift from static output matching toward interactive, belief-aware student modeling.
- Abstract(参考訳): 大規模言語モデル(LLM)は、生徒のような反応を流線型に生成できるため、AI教師や人間教育者のトレーニングや評価のための模擬学生として魅力的である。
しかし、このようなシミュレータは、実際の学生と出力の類似性によって評価され、相互作用中に一貫性のある誤解を持つ学生のように振る舞うかどうかによって評価される。
シミュレーションが誤解駆動の信念状態を維持しているかどうかを判断し,フィードバックが誤解に対処した場合に選択的に更新する,誤解の忠実さを評価するための制御フレームワークを提案する。
私たちのフレームワークの中心となるのは、目標とするフィードバックと、不一致のフィードバック(異なるが妥当な誤解をターゲットとする)と一般的なフィードバック(答えの特定だけが間違っている)の2つのコントロールを比較した、誤解に反するフィードバックプロトコルです。
本研究では,Selective Flip Score (SFS) を提案する。
7つのLLM(4B-120B)、複数のデータセット、およびプロンプト戦略、シミュレータは、ほぼゼロに近いSFSを示し、フィードバックの関連性に関係なく、同様に高いレートで回答を補正する。
モデルは誤解を持つ学生のように振る舞うのではなく、シミュレートされた信念を放棄し、内部知識から解決するためのキューとして、いかなる補正信号も扱う問題解決者のように振る舞う。
これを解決するために、教師付き微調整(SFT)、選好最適化、強化学習(RL)にSFS対応の報酬を与えるポストトレーニングパイプラインを開発し、SFTは+0.56まで、SFS対応のRLは優先最適化よりも一貫した改善を提供する。
本研究は,静的なアウトプットマッチングから,対話的,信念を意識した学生モデリングへのシフトを動機として,誤解の忠実さを困難なトレーニング可能な特性として確立した。
関連論文リスト
- Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - Expanding the Capabilities of Reinforcement Learning via Text Feedback [49.561885700139676]
テキストフィードバックをトレーニング中に利用できるが、推論では利用できないマルチターンRLセットアップであるテキストフィードバック(RLTF)を形式化する。
そこで本研究では, 自己蒸留法(RLTF-SD)と, フィードバック条件付き第2ターン世代に適合するように単一ターンポリシーを訓練するフィードバックモデリング法(RLTF-FM)の2つの手法を提案する。
以上の結果から,両手法はベンチマークにおいて強いベースラインを一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-02T18:56:56Z) - SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。
現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。
シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文 参考訳(メタデータ) (2025-10-20T13:14:38Z) - SMART: Simulated Students Aligned with Item Response Theory for Question Difficulty Prediction [38.7828715471869]
本稿では、シミュレーションされた学生を指導力で整列させる新しい方法SMART(Simulated Students Aligned with IRT)を提案する。
SMARTは、その改善された能力アライメントを活用することで、他の項目の難易度予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-07T15:41:38Z) - Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback [35.13591109493438]
提案手法は,フィードバックに対する抵抗性,すなわちフィードバック摩擦と呼ばれる制限を一貫して示している。
フィードバック摩擦を解析し、セマンティックエントロピーによって測定された特定の質問に対するモデルの信頼度が、フィードバック抵抗を予測する。
論文 参考訳(メタデータ) (2025-06-13T16:31:51Z) - Flow Matching for Posterior Inference with Simulator Feedback [20.315933488318986]
フローベース生成モデリングは、物理科学における逆問題を解決する強力なツールである。
そこで本研究では,シミュレータに基づく制御信号の追加によるフローの洗練を提案する。
シミュレータからのフィードバックを含むと精度が53%向上し,従来の手法と競合することを示す。
論文 参考訳(メタデータ) (2024-10-29T22:26:39Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。