論文の概要: Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study
- arxiv url: http://arxiv.org/abs/2504.05570v1
- Date: Mon, 07 Apr 2025 23:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 03:12:30.827673
- Title: Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study
- Title(参考訳): 大規模言語モデルはシステム適応性に適合するか? : ベンチマーク研究
- Authors: Conrad Borchers, Tianze Shou,
- Abstract要約: 大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) hold promise as dynamic instructional aids. Yet, it remains unclear whether LLMs can replicate the adaptivity of intelligent tutoring systems (ITS)--where student knowledge and pedagogical strategies are explicitly modeled. We propose a prompt variation framework to assess LLM-generated instructional moves' adaptivity and pedagogical soundness across 75 real-world tutoring scenarios from an ITS. We systematically remove key context components (e.g., student errors and knowledge components) from prompts to create variations of each scenario. Three representative LLMs (Llama3-8B, Llama3-70B, and GPT-4o) generate 1,350 instructional moves. We use text embeddings and randomization tests to measure how the omission of each context feature impacts the LLMs' outputs (adaptivity) and a validated tutor-training classifier to evaluate response quality (pedagogical soundness). Surprisingly, even the best-performing model only marginally mimics the adaptivity of ITS. Specifically, Llama3-70B demonstrates statistically significant adaptivity to student errors. Although Llama3-8B's recommendations receive higher pedagogical soundness scores than the other models, it struggles with instruction-following behaviors, including output formatting. By contrast, GPT-4o reliably adheres to instructions but tends to provide overly direct feedback that diverges from effective tutoring, prompting learners with open-ended questions to gauge knowledge. Given these results, we discuss how current LLM-based tutoring is unlikely to produce learning benefits rivaling known-to-be-effective ITS tutoring. Through our open-source benchmarking code, we contribute a reproducible method for evaluating LLMs' instructional adaptivity and fidelity.
- Abstract(参考訳): 大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、学生の知識と教育戦略が明確にモデル化されている知的学習システム(ITS)の適応性をLLMが再現できるかどうかは不明である。
実世界の75の学習シナリオにまたがって,LLMが生成する指導動作の適応性と教育的健全性を評価するための即時変化フレームワークを提案する。
主要なコンテキストコンポーネント(例えば、学生のエラーや知識コンポーネント)をプロンプトから体系的に取り除き、各シナリオのバリエーションを作成します。
3つの代表的なLCM(Llama3-8B、Llama3-70B、GPT-4o)は1,350の命令運動を生成する。
テキスト埋め込みとランダム化テストを用いて,各文脈特徴の欠落がLLMの出力(適応性)に与える影響を測定する。
驚くべきことに、最高のパフォーマンスモデルでさえ、ITSの適応性をわずかに模倣しているだけだ。
具体的には、Llama3-70Bは統計的に学生の誤りに対する適応性を示す。
Llama3-8Bのレコメンデーションは他のモデルよりも教育的な音質スコアが高いが、出力フォーマッティングを含む指示追従の動作に苦慮している。
対照的に、GPT-4oは指示に確実に準拠するが、効果的な指導から逸脱する過度に直接的なフィードバックを提供する傾向にあり、学習者にオープンな質問をさせ、知識を測る傾向にある。
これらの結果を踏まえ、現在のLLMベースのチューリングが、知能から効果的なITSのチューリングと競合する学習の利点をいかに生み出すかについて議論する。
オープンソースのベンチマークコードを通じて,LLMの命令適応性と忠実度を評価する再現可能な手法を提案する。
関連論文リスト
- On the effectiveness of LLMs for automatic grading of open-ended questions in Spanish [0.8224695424591679]
本稿では,異なるLLMの性能について検討し,オープンエンド質問に対する短文回答を自動的に評価する手法を提案する。
結果は、プロンプトのスタイルに特に敏感であり、プロンプト内の特定の単語やコンテンツに対するバイアスを示唆している。
論文 参考訳(メタデータ) (2025-03-23T13:43:27Z) - Use Me Wisely: AI-Driven Assessment for LLM Prompting Skills Development [5.559706293891474]
大規模言語モデル(LLM)を利用したチャットボットは、様々な領域で普及し、様々なタスクやプロセスをサポートしている。
しかし、プロンプトは非常にタスクに依存し、ドメインに依存しており、ジェネリックアプローチの有効性を制限している。
本研究では, アドホックガイドラインと最小限の注釈付きプロンプトサンプルを用いて, LLM を用いた学習評価を促進できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-04T11:56:33Z) - TutorLLM: Customizing Learning Recommendations with Knowledge Tracing and Retrieval-Augmented Generation [44.18659233932457]
TutorLLMは、知識追跡(KT)と検索補助生成(RAG)に基づくパーソナライズされた学習推薦システムである。
TutorLLMの斬新さは、コンテキスト固有の知識の動的検索を可能にする、KTとRAGの技法とLLMのユニークな組み合わせにある。
評価には、ユーザアセスメントのアンケートとパフォーマンス指標が含まれ、ユーザの満足度が10%向上したことを示す。
論文 参考訳(メタデータ) (2025-01-20T21:18:43Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs [30.333277284839053]
大規模言語モデル(LLM)は、高品質な応答を生成することに成功している。
応答品質を向上させる既存の方法は、しばしば即時改善モデルを含む。
我々は、LLMにより効果的な応答を提供するための自己指示型インコンテキスト学習フレームワークを導入する。
論文 参考訳(メタデータ) (2024-09-03T02:42:39Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails [43.19453208130667]
大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。
本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。
MWPTutor は LLM を用いて事前定義された有限状態トランスデューサの状態空間を補う。
論文 参考訳(メタデータ) (2024-02-14T14:53:56Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。