論文の概要: How well do Large Language Models Recognize Instructional Moves? Establishing Baselines for Foundation Models in Educational Discourse
- arxiv url: http://arxiv.org/abs/2512.19903v1
- Date: Mon, 22 Dec 2025 22:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.675317
- Title: How well do Large Language Models Recognize Instructional Moves? Establishing Baselines for Foundation Models in Educational Discourse
- Title(参考訳): 大規模言語モデルはいかにして教育運動を認識するか : 教育談話における基礎モデルの確立
- Authors: Kirk Vanacore, Rene F. Kizilcec,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクで教育技術に採用されつつある。
我々は6つのLDMを比較して,授業書の授業動作の分類という,単純だが重要な課題のベースライン性能を推定した。
その結果, ゼロショット性能は中等度であり, 総合例では最先端モデルの性能が有意に向上した。
- 参考スコア(独自算出の注目度): 0.15469452301122177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly adopted in educational technologies for a variety of tasks, from generating instructional materials and assisting with assessment design to tutoring. While prior work has investigated how models can be adapted or optimized for specific tasks, far less is known about how well LLMs perform at interpreting authentic educational scenarios without significant customization. As LLM-based systems become widely adopted by learners and educators in everyday academic contexts, understanding their out-of-the-box capabilities is increasingly important for setting expectations and benchmarking. We compared six LLMs to estimate their baseline performance on a simple but important task: classifying instructional moves in authentic classroom transcripts. We evaluated typical prompting methods: zero-shot, one-shot, and few-shot prompting. We found that while zero-shot performance was moderate, providing comprehensive examples (few-shot prompting) significantly improved performance for state-of-the-art models, with the strongest configuration reaching Cohen's Kappa = 0.58 against expert-coded annotations. At the same time, improvements were neither uniform nor complete: performance varied considerably by instructional move, and higher recall frequently came at the cost of increased false positives. Overall, these findings indicate that foundation models demonstrate meaningful yet limited capacity to interpret instructional discourse, with prompt design helping to surface capability but not eliminating fundamental reliability constraints.
- Abstract(参考訳): 大規模言語モデル (LLM) は、教材の作成やアセスメント設計の支援、教師活動など、様々なタスクで教育技術に採用されつつある。
以前の研究では、モデルを特定のタスクに適応あるいは最適化する方法が研究されているが、LLMが大きなカスタマイズなしに真の教育シナリオを解釈する上で、いかにうまく機能するかは、あまり分かっていない。
LLMベースのシステムが日常の学術的文脈において学習者や教育者によって広く採用されるようになるにつれ、期待とベンチマークの設定において、そのアウト・オブ・ザ・ボックス能力を理解することがますます重要である。
そこで本研究では,6つのLDMを比較し,その基礎的性能を授業内容の分類という,シンプルながら重要なタスクで推定した。
我々は、ゼロショット、ワンショット、少数ショットプロンプトという典型的なプロンプト法を評価した。
ゼロショットのパフォーマンスは適度だが、包括的な例(フェーショットプロンプト)を提供することで、最先端モデルのパフォーマンスが大幅に向上し、CohenのKappa = 0.58に到達した。
同時に、改善は均一でも完全でもなく、命令の動きによって性能は大幅に変化し、高いリコールは偽陽性の増加のコストを伴って頻繁に発生した。
これらの結果から,基礎モデルは教育談話の解釈に有意かつ限定的な能力を示し,素早い設計は能力の表出に役立ちながら基本的な信頼性の制約を排除していないことが示唆された。
関連論文リスト
- Measuring Teaching with LLMs [4.061135251278187]
本稿では,文レベルの埋め込みをベースとした独自のLarge Language Modelを使用する。
これらの特化モデルは,0.65以上の専門家による評価で,人間レベルおよび超人的性能を達成可能であることを示す。
また,総合的なモデルスコアは教師の付加価値尺度と一致し,生徒の学習に関連する特徴を捉えていることを示す。
論文 参考訳(メタデータ) (2025-10-27T03:42:04Z) - Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines [71.14354526117958]
In-context Learning (ICL) は、事前訓練された大規模言語モデル(LLM)の重要かつ完全には理解されていない能力である。
タスク言語とフォーマット特性をキャプチャする2つのガイドラインの並列ストリームを効率よく生成するLongGuideを提案する。
LongGuideはガイドラインの最良の組み合わせを自動的に選択し、ゼロショット設定と少数ショット設定の両方で、強力なオープンソースLLMとクローズドソースLLMの両方を5%以上改善する。
論文 参考訳(メタデータ) (2025-06-02T02:35:24Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Evaluating the Robustness to Instructions of Large Language Models [6.947956990248856]
微調整大型言語モデル(LLM)は、新しいタスクにおけるゼロショット能力を向上することができる。
Alpaca, Vicuna, WizardLM, 従来のタスク指向モデル(Flan-T5-XL/XXL, T0++)を含む6つのモデルを評価する。
異なるスケールのFLAN-T5モデルのRE命令に対するロバスト性は、QA命令に対するロバスト性よりも劣っていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T04:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。