論文の概要: Do LLMs Make Mistakes Like Students? Exploring Natural Alignment between Language Models and Human Error Patterns
- arxiv url: http://arxiv.org/abs/2502.15140v1
- Date: Fri, 21 Feb 2025 01:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:42:24.905780
- Title: Do LLMs Make Mistakes Like Students? Exploring Natural Alignment between Language Models and Human Error Patterns
- Title(参考訳): LLMは学生のように間違いを犯すか? : 言語モデルとヒューマンエラーパターンの自然なアライメントを探る
- Authors: Naiming Liu, Shashank Sonkar, Richard G. Baraniuk,
- Abstract要約: 大規模言語モデル(LLM)は、様々な教育課題において顕著な能力を示した。
人間の学習パターンとの整合性、特に、学生がマルチチョイス質問(MCQ)で選択する可能性が最も高い選択肢の予測には、未熟なままである。
- 参考スコア(独自算出の注目度): 25.90420385230675
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in various educational tasks, yet their alignment with human learning patterns, particularly in predicting which incorrect options students are most likely to select in multiple-choice questions (MCQs), remains underexplored. Our work investigates the relationship between LLM generation likelihood and student response distributions in MCQs with a specific focus on distractor selections. We collect a comprehensive dataset of MCQs with real-world student response distributions to explore two fundamental research questions: (1). RQ1 - Do the distractors that students more frequently select correspond to those that LLMs assign higher generation likelihood to? (2). RQ2 - When an LLM selects a incorrect choice, does it choose the same distractor that most students pick? Our experiments reveals moderate correlations between LLM-assigned probabilities and student selection patterns for distractors in MCQs. Additionally, when LLMs make mistakes, they are more likley to select the same incorrect answers that commonly mislead students, which is a pattern consistent across both small and large language models. Our work provides empirical evidence that despite LLMs' strong performance on generating educational content, there remains a gap between LLM's underlying reasoning process and human cognitive processes in identifying confusing distractors. Our findings also have significant implications for educational assessment development. The smaller language models could be efficiently utilized for automated distractor generation as they demonstrate similar patterns in identifying confusing answer choices as larger language models. This observed alignment between LLMs and student misconception patterns opens new opportunities for generating high-quality distractors that complement traditional human-designed distractors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な教育課題において顕著な能力を示してきたが、人間の学習パターンとの整合性は、特に、学生がマルチチョイス質問(MCQ)で選択する可能性が最も高い選択肢の予測において、未調査のままである。
本研究は, MCQ における LLM 生成確率と学生の反応分布の関係について検討した。
本研究では,MCQの総合的データセットと実世界の学生応答分布を収集し,2つの基本的な研究課題を探索する。
RQ1 - 学生が頻繁に選択する気晴らし器は、LLMがより高い世代を割り当てる確率に対応するか?
(2)。
RQ2 - LLMが間違った選択を選択するとき、ほとんどの学生が選ぶのと同じ邪魔者を選ぶのか?
実験の結果, MCQ における学習者選択パターンと LLM 指定確率の適度な相関関係が明らかとなった。
加えて、LLMが誤りを犯す場合、学生が一般的に誤解を招くのと同じ誤った答えを選択できる傾向があり、これは小規模と大規模の両方の言語モデルで一貫したパターンである。
我々の研究は、LLMの教育コンテンツ生成における強い業績にもかかわらず、LLMの根底にある推論プロセスと人間の認知プロセスとの間には、混乱を区別する要因がまだ残っているという実証的な証拠を提供する。
また,本研究は,教育アセスメントの発達にも大きな影響を及ぼす。
より小さな言語モデルは、より大きな言語モデルと紛らわしい解選択を識別する類似のパターンを示すため、自動化されたイントラクタ生成に効率的に利用することができる。
これにより、LLMと学生の誤解パターンの一致が、従来の人間設計の気晴らしを補完する高品質な気晴らしを発生させる新たな機会を開く。
関連論文リスト
- Affordably Fine-tuned LLMs Provide Better Answers to Course-specific MCQs [0.9217021281095907]
我々は,大規模言語モデル (LLM) がハードウェア制約や改良技術に関して,マルチチョイス質問 (MCQ) にどのように答えるかを検討する。
我々は,プログラム言語(PL)コースから162人の学部レベルのMCQに回答するために,汎用的な事前学習 LLM を用いて,この空間を探索する。
論文 参考訳(メタデータ) (2025-01-10T11:44:35Z) - Embracing AI in Education: Understanding the Surge in Large Language Model Use by Secondary Students [53.20318273452059]
OpenAIのChatGPTのような大規模言語モデル(LLM)は、新しい教育の道を開いた。
学校制限にもかかわらず,中高生300人以上を対象に調査を行ったところ,学生の70%がLDMを利用していることがわかった。
我々は、対象特化モデル、パーソナライズドラーニング、AI教室など、このような問題に対処するいくつかのアイデアを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:19:34Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。
LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。
本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T17:59:47Z) - Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models [40.50115385623107]
マルチチョイス質問(MCQ)は、評価や実践において、管理しやすく、格付けし、信頼性の高いフォーマットであるため、ほぼ全てのレベルの教育においてユビキタスである。
MCQの最も重要な側面の1つは、実際の学生の間でよくある誤りや誤解を狙った誤った選択肢である。
現在まで、高品質なイントラクタを開発するというタスクは、拡張性に制限のある教師や学習コンテンツデザイナにとって、労働力と時間を要するプロセスのままである。
論文 参考訳(メタデータ) (2024-04-02T17:31:58Z) - Beyond Answers: Transferring Reasoning Capabilities to Smaller LLMs Using Multi-Teacher Knowledge Distillation [23.736611338497244]
TinyLLMは、複数の大規模LLMから小学生のLLMを学ぶための新しい知識蒸留パラダイムである。
そこで本研究では,文脈的に適切なシナリオにおいて,理科が正確で基礎が整っていることを保証するために,文脈内サンプル生成と教師強制型Chain-of-Thought戦略を導入する。
その結果,TinyLLMはモデルサイズがかなり小さいにもかかわらず,大きなLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-07T06:48:24Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。