論文の概要: ELI-Why: Evaluating the Pedagogical Utility of Language Model Explanations
- arxiv url: http://arxiv.org/abs/2506.14200v1
- Date: Tue, 17 Jun 2025 05:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.34329
- Title: ELI-Why: Evaluating the Pedagogical Utility of Language Model Explanations
- Title(参考訳): ELI-Why:言語モデル記述の教育的有用性の評価
- Authors: Brihi Joshi, Keyu He, Sahana Ramnath, Sadra Sabouri, Kaitlyn Zhou, Souti Chattopadhyay, Swabha Swayamdipta, Xiang Ren,
- Abstract要約: 言語モデルの教育的能力を評価するために,13.4Kの"Why"質問のベンチマークであるELI-Whyを紹介する。
第1回研究では、モデル説明が異なる教育課程に適合するかどうかを評価する「教育者」の役割を担っている。
GPT-4による説明は、意図した教育的背景に合致するが、通常の人間による説明では79%であった。
- 参考スコア(独自算出の注目度): 38.73656006445607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models today are widely used in education, yet their ability to tailor responses for learners with varied informational needs and knowledge backgrounds remains under-explored. To this end, we introduce ELI-Why, a benchmark of 13.4K "Why" questions to evaluate the pedagogical capabilities of language models. We then conduct two extensive human studies to assess the utility of language model-generated explanatory answers (explanations) on our benchmark, tailored to three distinct educational grades: elementary, high-school and graduate school. In our first study, human raters assume the role of an "educator" to assess model explanations' fit to different educational grades. We find that GPT-4-generated explanations match their intended educational background only 50% of the time, compared to 79% for lay human-curated explanations. In our second study, human raters assume the role of a learner to assess if an explanation fits their own informational needs. Across all educational backgrounds, users deemed GPT-4-generated explanations 20% less suited on average to their informational needs, when compared to explanations curated by lay people. Additionally, automated evaluation metrics reveal that explanations generated across different language model families for different informational needs remain indistinguishable in their grade-level, limiting their pedagogical effectiveness.
- Abstract(参考訳): 現在、言語モデルは教育で広く使われているが、様々な情報ニーズと知識の背景を持つ学習者に対して応答を調整できる能力は、まだ探索されていない。
この目的のために、言語モデルの教育的能力を評価するために、13.4Kの"Why"質問のベンチマークであるELI-Whyを紹介する。
そこで我々は,小学校,高校,大学院の3つの学級に合わせた,言語モデルによる説明的回答(説明)の有用性を評価するために,2つの広範囲にわたる人的研究を行った。
第1回研究では、モデル説明が異なる教育課程に適合するかどうかを評価する「教育者」の役割を担っている。
GPT-4による説明は、意図した教育的背景に合致するが、通常の人間による説明では79%であった。
第2報では,学習者が説明が自身の情報的ニーズに適合するかどうかを判断する役割を担っている。
全ての教育的背景において、GPT-4の生成した説明は、日常的な人々による説明に比べて、平均的に情報的ニーズに適合しないものと見なされた。
さらに、自動評価メトリクスは、異なる情報を必要とする異なる言語モデルファミリ間で生成された説明が、学級レベルでは区別できないままであり、教育的効果が制限されることを明らかにする。
関連論文リスト
- Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Assertion Enhanced Few-Shot Learning: Instructive Technique for Large
Language Models to Generate Educational Explanations [0.0]
人間の教育者は、生徒から教育的な説明を求め、予測する本質的な能力を持っている。
我々は,大規模言語モデルの少数ショット学習機能を用いて,インテリジェント・チューリング・システムを構築することを目的としている。
論文 参考訳(メタデータ) (2023-12-05T20:41:34Z) - Exploring Iterative Enhancement for Improving Learnersourced Multiple-Choice Question Explanations with Large Language Models [22.376741676039398]
我々は、自動説明生成のタスクを足場として、"ILearner-LLM" というフレームワークを提示し、評価する。
このフレームワークは、評価モデルから品質評価スコアをインストラクションプロンプトに反復的にフィードバックすることで、高品質な学生対応の説明を生成する。
本研究は,学生の学習支援体験を充実させるための有望な道のりを示すものである。
論文 参考訳(メタデータ) (2023-09-19T09:04:15Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - Human Interpretation of Saliency-based Explanation Over Text [65.29015910991261]
テキストデータ上でのサリエンシに基づく説明について検討する。
人はしばしば説明を誤って解釈する。
本稿では,過度知覚と過小認識のモデル推定に基づいて,サリエンシを調整する手法を提案する。
論文 参考訳(メタデータ) (2022-01-27T15:20:32Z) - Evaluating Explanations: How much do explanations from the teacher aid
students? [103.05037537415811]
本研究では,説明が生徒の学習モデルを改善する程度を測る学生-教師パラダイムを用いて,説明の価値を定式化する。
説明を評価するための従来の提案とは異なり、我々のアプローチは容易にゲーム化できず、原則付き、スケーラブルで、属性の自動評価を可能にします。
論文 参考訳(メタデータ) (2020-12-01T23:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。