論文の概要: Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning
- arxiv url: http://arxiv.org/abs/2509.05346v2
- Date: Wed, 22 Oct 2025 13:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.92642
- Title: Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning
- Title(参考訳): AI強化学習における個人化指導のための大規模言語モデルのベンチマーク
- Authors: Bo Yuan, Jiazi Hu,
- Abstract要約: 大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。
本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
- 参考スコア(独自算出の注目度): 4.990353320509215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) are increasingly envisioned as intelligent assistants for personalized learning, systematic head-to-head evaluations in authentic learning scenarios remain scarce. This study presents an empirical comparison of three state-of-the-art LLMs on a tutoring task simulating a realistic learning setting. Using a dataset containing a student's responses to ten mixed-format questions with correctness labels, each model was asked to (i) analyze the quiz to identify underlying knowledge components, (ii) infer the student's mastery profile, and (iii) generate targeted guidance for improvement. To mitigate subjectivity and evaluator bias, Gemini was employed as a virtual judge to perform pairwise comparisons across multiple dimensions: accuracy, clarity, actionability, and appropriateness. Results analyzed via the Bradley-Terry model reveal that GPT-4o is generally preferred, producing feedback that is more informative and better structured than its counterparts, whereas DeepSeek-V3 and GLM-4.5 demonstrate intermittent strengths but lower consistency. These findings highlight the feasibility of deploying LLMs as advanced teaching assistants for individualized support and provide methodological insights for subsequent empirical research on LLM-driven personalized learning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられているが、真の学習シナリオにおける体系的な頭から頭への評価は依然として少ないままである。
本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
正当性ラベル付き混合形式質問に対する学生の回答を含むデータセットを用いて,各モデルに質問を行った。
一 クイズを分析し、基礎となる知識成分を特定すること。
(二)学生の熟達プロファイルを推測し、
三 改善のための目標ガイダンスを作成すること。
主観性と評価者のバイアスを軽減するために、ジェミニは仮想判断器として、複数の次元(正確性、明確性、行動可能性、適切性)でペア比較を行うために用いられた。
Bradley-Terry モデルを用いて解析した結果、GPT-4o は一般的に好まれており、より情報的かつより構造化されたフィードバックが得られ、DeepSeek-V3 と GLM-4.5 は断続的な強度を示すが、一貫性は低い。
これらの知見は,LLMを個人化支援のための先進的な指導支援として展開する可能性を強調し,LLM駆動型パーソナライズドラーニングに関する実証的研究の方法論的知見を提供する。
関連論文リスト
- Using Large Language Models to Assess Teachers' Pedagogical Content Knowledge [3.2489371952043213]
本研究では,大規模言語モデルが,機械学習(ML)やヒューマンレーダと類似した構成不関連分散(CIV)を導入したかどうかを検討する。
一般化線形混合モデル (GLMM) を用いて, 分散成分とレーダレベルのスコアリングパターンを3つのスコアリング源で比較した。
その結果、シナリオレベルの分散はタスク間で最小であり、レーダ関連因子はCIVに大きく寄与した。
論文 参考訳(メタデータ) (2025-05-25T18:45:53Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。
Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。
メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T08:35:55Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - A Large Language Model Approach to Educational Survey Feedback Analysis [0.0]
本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性について検討する。
論文 参考訳(メタデータ) (2023-09-29T17:57:23Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。