論文の概要: LLM-Generated Feedback Supports Learning If Learners Choose to Use It
- arxiv url: http://arxiv.org/abs/2506.17006v1
- Date: Fri, 20 Jun 2025 13:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.473253
- Title: LLM-Generated Feedback Supports Learning If Learners Choose to Use It
- Title(参考訳): LLM生成フィードバックは、学習者がそれを使う場合の学習を支援する
- Authors: Danielle R. Thomas, Conrad Borchers, Shambhavi Bhushan, Erin Gatz, Shivang Gupta, Kenneth R. Koedinger,
- Abstract要約: 大規模な言語モデル(LLM)は、フィードバックを生成するためにますます使われていますが、学習への影響は未調査です。
本研究では,オンデマンドLLM説明フィードバックが7つのシナリオベース授業における学習にどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 1.4843690728082002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to generate feedback, yet their impact on learning remains underexplored, especially compared to existing feedback methods. This study investigates how on-demand LLM-generated explanatory feedback influences learning in seven scenario-based tutor training lessons. Analyzing over 2,600 lesson completions from 885 tutor learners, we compare posttest performance among learners across three groups: learners who received feedback generated by gpt-3.5-turbo, those who declined it, and those without access. All groups received non-LLM corrective feedback. To address potential selection bias-where higher-performing learners may be more inclined to use LLM feedback-we applied propensity scoring. Learners with a higher predicted likelihood of engaging with LLM feedback scored significantly higher at posttest than those with lower propensity. After adjusting for this effect, two out of seven lessons showed statistically significant learning benefits from LLM feedback with standardized effect sizes of 0.28 and 0.33. These moderate effects suggest that the effectiveness of LLM feedback depends on the learners' tendency to seek support. Importantly, LLM feedback did not significantly increase completion time, and learners overwhelmingly rated it as helpful. These findings highlight LLM feedback's potential as a low-cost and scalable way to improve learning on open-ended tasks, particularly in existing systems already providing feedback without LLMs. This work contributes open datasets, LLM prompts, and rubrics to support reproducibility.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、フィードバックを生成するためにますます使われていますが、学習への影響は、特に既存のフィードバックメソッドと比較して、過小評価されています。
本研究は,LLM生成説明フィードバックが7つのシナリオベース授業における学習にどのように影響するかを考察する。
学習者885名を対象に,gpt-3.5-turboのフィードバックを受けた学習者,拒否した学習者,アクセスしない学習者3名を対象に,テスト後の成績を比較した。
全グループは非LLM修正フィードバックを受けた。
潜在的な選択バイアスに対処するために,高パフォーマンス学習者はLLMフィードバックを用いる傾向が強くなり,適応性スコアリングを適用した。
LLMフィードバックを受講する確率が高い学習者は,受験後より有意に高い傾向を示した。
この効果を調整した後、7つの授業のうち2つは、標準効果サイズ0.28と0.33のLSMフィードバックによる統計的に有意な学習効果を示した。
これらの中程度の効果は、LLMフィードバックの有効性が学習者の支援を求める傾向に依存することを示唆している。
重要なことは、LLMのフィードバックは完成時間を大幅に増加させておらず、学習者は圧倒的に役に立つと評価した。
これらの知見は、特にLLMなしですでにフィードバックを提供している既存のシステムにおいて、オープンなタスクにおける学習を改善するための低コストでスケーラブルな方法としてのLLMフィードバックの可能性を強調している。
この作業は、再現性をサポートするために、オープンデータセット、LLMプロンプト、ルーブリックに貢献する。
関連論文リスト
- Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - AI Meets the Classroom: When Do Large Language Models Harm Learning? [0.0]
大規模言語モデル(LLM)が学習結果に与える影響は,利用行動に依存することを示す。
LLMは学習を改善する大きな可能性を示しているが、それらの使用は教育的な文脈に合わせて調整されなければならない。
論文 参考訳(メタデータ) (2024-08-29T17:07:46Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Interpreting Learned Feedback Patterns in Large Language Models [11.601799960959214]
我々は、微調整言語モデルのアクティベーションにおいて暗黙的にフィードバック信号を推定するプローブを訓練する。
これらの推定値を真のフィードバックと比較し、LFPの精度を微調整フィードバックと比較する。
我々は、GPT-4が記述し、LFPに関連するものとして分類する特徴に対して、正のフィードバック入力と相関する神経特徴を比較して、プローブを検証する。
論文 参考訳(メタデータ) (2023-10-12T09:36:03Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。