Fugu-MT 論文翻訳(概要): Discerning minds or generic tutors? Evaluating instructional guidance capabilities in Socratic LLMs

論文の概要: Discerning minds or generic tutors? Evaluating instructional guidance capabilities in Socratic LLMs

arxiv url: http://arxiv.org/abs/2508.06583v2
Date: Mon, 29 Sep 2025 02:32:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 17:47:09.147577
Title: Discerning minds or generic tutors? Evaluating instructional guidance capabilities in Socratic LLMs
Title（参考訳）: 心の認知と汎用的教官 : ソクラティックLLMにおける指導指導能力の評価
Authors: Ying Liu, Can Li, Ting Zhang, Mei Wang, Qiannan Zhu, Jian Li, Hua Huang,
Abstract要約: 本研究は,質問生成を超えて指導指導能力を強調する。実際の教育対話を基盤としたベンチマークである GuideEval を提案する。本稿では,行動促進型指導対話を活用した行動誘導型微調整戦略を提案する。
参考スコア（独自算出の注目度）: 35.33577525791391
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The conversational capabilities of large language models hold significant promise for enabling scalable and interactive tutoring. While prior research has primarily examined their ability to generate Socratic questions, it often overlooks a critical aspect: adaptively guiding learners in accordance with their cognitive states. This study moves beyond question generation to emphasize instructional guidance capability. We ask: Can LLMs emulate expert tutors who dynamically adjust strategies in response to learners' states? To investigate this, we propose GuideEval, a benchmark grounded in authentic educational dialogues that evaluates pedagogical guidance through a three-phase behavioral framework: (1) Perception, inferring learner states; (2) Orchestration, adapting instructional strategies; and (3) Elicitation, stimulating proper reflections. Empirical results indicate that existing LLMs often fail to provide effective adaptive scaffolding when learners experience confusion or require redirection. To complement the quantitative evaluation, we conduct a detailed failure case analysis, providing an intuitive understanding of these shortcomings. Furthermore, we introduce a behavior-guided finetuning strategy that leverages behavior-prompted instructional dialogues, substantially enhancing guidance performance. By shifting the focus from isolated content evaluation to learner-centered state-aware interaction, our work advocates a more dialogic paradigm for evaluating Socratic LLMs.
Abstract（参考訳）: 大規模言語モデルの対話能力は、スケーラブルでインタラクティブな学習を可能にするための大きな約束を持っている。従来の研究では、主にソクラテス的な質問を生成する能力について検討されてきたが、認知状態に応じて学習者を適応的に導くという重要な側面をしばしば見落としている。本研究は,質問生成を超えて指導指導能力を強調する。 LLMは学習者の状態に応じて戦略を動的に調整する専門家の指導者をエミュレートできるのか? そこで,本研究では,(1)知覚,学習者状態の推測,(2)編成,指導戦略の適応,(3)引用,適切な反射の刺激といった3段階の行動枠組みを通じて教育指導を評価する,真の教育対話を基盤としたベンチマークである GuideEvalを提案する。実験結果から,既存のLLMでは,学習者が混乱を経験したり,リダイレクトを必要とする場合,効果的な適応的足場の提供が困難であることが示唆された。定量的評価を補完するため、我々は詳細な故障事例分析を行い、これらの欠点を直感的に理解する。さらに,動作促進型指導対話を活用する行動誘導型微調整戦略を導入し,指導性能を大幅に向上させる。独立したコンテンツ評価から学習者中心の状態認識インタラクションへと焦点を移すことで、ソクラティックLSMを評価するためのより対話的なパラダイムを提唱する。

関連論文リスト

\textsc{SimInstruct}: A Responsible Tool for Collecting Scaffolding Dialogues Between Experts and LLM-Simulated Novices [21.67295740032255]
SimInstructは、スキャフォールディングダイアログを収集するための、スケーラブルで専門的なループツールである。 SimInstructは、開発コーチングをサンプルドメインとして使用し、LLMを通して初心者インストラクターをシミュレートする。その結果,外向性や内向性といったペルソナの特徴が,専門家の関わり方に有意な影響を及ぼすことが明らかとなった。
論文参考訳（メタデータ） (2025-08-06T13:16:10Z)
Dialogic Pedagogy for Large Language Models: Aligning Conversational AI with Proven Theories of Learning [1.2691047660244332]
大言語モデル(LLM)は、リッチな会話学習体験を可能にすることによって、教育を変革している。本稿では,LLMをベースとした会話エージェントが高等教育にどのように利用されているのかを概観する。
論文参考訳（メタデータ） (2025-06-24T10:19:09Z)
Improving Student-AI Interaction Through Pedagogical Prompting: An Example in Computer Science Education [1.1517315048749441]
大規模言語モデル(LLM)アプリケーションは、興奮と懸念の両方を引き起こした。最近の研究は、LLMの誤用が学習の妨げとなることを一貫して強調している。本研究の目的は,LLMの学習改善を効果的に促進する方法を学生に教えることである。
論文参考訳（メタデータ） (2025-06-23T20:39:17Z)
A Practical Guide for Supporting Formative Assessment and Feedback Using Generative AI [0.0]
大規模言語モデル(LLM)は、学生、教師、同僚が「学習者が行く場所」、「学習者が現在いる場所」、「学習者を前進させる方法」を理解するのに役立つ。本総説では,LSMを形式的評価に統合するための総合的な基盤を提供する。
論文参考訳（メタデータ） (2025-05-29T12:52:43Z)
From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [76.09281171131941]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T15:00:07Z)
Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文参考訳（メタデータ） (2024-09-24T22:31:39Z)
From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。この結果から,指導指導の3つの重要な影響が明らかになった。
論文参考訳（メタデータ） (2023-09-30T21:16:05Z)
Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。 CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文参考訳（メタデータ） (2023-09-12T14:36:23Z)
Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文参考訳（メタデータ） (2021-05-23T15:16:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。