論文の概要: Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning
- arxiv url: http://arxiv.org/abs/2509.05346v1
- Date: Tue, 02 Sep 2025 14:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.446494
- Title: Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning
- Title(参考訳): AI強化学習における個人化指導のための大規模言語モデルのベンチマーク
- Authors: Bo Yuan, Jiazi Hu,
- Abstract要約: 大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。
本研究では,現実的な学習環境をシミュレートした学習課題に対して,最先端の3つのLLMを実証的に比較した。
- 参考スコア(独自算出の注目度): 4.990353320509215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) are increasingly envisioned as intelligent assistants for personalized learning, systematic head-to-head evaluations within authentic learning scenarios remain limited. This study conducts an empirical comparison of three state-of-the-art LLMs on a tutoring task that simulates a realistic learning setting. Using a dataset comprising a student's answers to ten questions of mixed formats with correctness labels, each LLM is required to (i) analyze the quiz to identify underlying knowledge components, (ii) infer the student's mastery profile, and (iii) generate targeted guidance for improvement. To mitigate subjectivity and evaluator bias, we employ Gemini as a virtual judge to perform pairwise comparisons along various dimensions: accuracy, clarity, actionability, and appropriateness. Results analyzed via the Bradley-Terry model indicate that GPT-4o is generally preferred, producing feedback that is more informative and better structured than its counterparts, while DeepSeek-V3 and GLM-4.5 demonstrate intermittent strengths but lower consistency. These findings highlight the feasibility of deploying LLMs as advanced teaching assistants for individualized support and provide methodological guidance for future empirical research on LLM-driven personalized learning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられているが、真の学習シナリオにおける体系的な頭から頭への評価は限定的のままである。
本研究では,現実的な学習環境をシミュレートした学習課題に対して,最先端の3つのLLMを実証的に比較した。
学生の回答からなるデータセットを、正当性ラベル付き混合形式の10の質問に使用することにより、各LLMが要求される。
一 クイズを分析し、基礎となる知識成分を特定すること。
(二)学生の熟達プロファイルを推測し、
三 改善のための目標ガイダンスを作成すること。
主観性と評価者のバイアスを軽減するため,Geminiを仮想判断器として,精度,明快性,行動可能性,適切性など,様々な次元の相互比較を行う。
Bradley-Terry モデルを用いて解析した結果、GPT-4o は一般的に好まれており、より情報的かつより構造化されたフィードバックが得られ、DeepSeek-V3 と GLM-4.5 は断続的な強度を示すが、一貫性は低い。
これらの知見は、個人化支援のための先進的な指導支援としてLLMをデプロイする可能性を強調し、LLM駆動型パーソナライズドラーニングに関する将来の実証的研究のための方法論的ガイダンスを提供する。
関連論文リスト
- Using Large Language Models to Assess Teachers' Pedagogical Content Knowledge [3.2489371952043213]
本研究では,大規模言語モデルが,機械学習(ML)やヒューマンレーダと類似した構成不関連分散(CIV)を導入したかどうかを検討する。
一般化線形混合モデル (GLMM) を用いて, 分散成分とレーダレベルのスコアリングパターンを3つのスコアリング源で比較した。
その結果、シナリオレベルの分散はタスク間で最小であり、レーダ関連因子はCIVに大きく寄与した。
論文 参考訳(メタデータ) (2025-05-25T18:45:53Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。
Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。
メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T08:35:55Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - A Large Language Model Approach to Educational Survey Feedback Analysis [0.0]
本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性について検討する。
論文 参考訳(メタデータ) (2023-09-29T17:57:23Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。