Fugu-MT 論文翻訳(概要): From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education

論文の概要: From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education

arxiv url: http://arxiv.org/abs/2502.13789v1
Date: Wed, 19 Feb 2025 14:57:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.998413
Title: From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education
Title（参考訳）: 正確性から理解へ:教育における個人化エラー診断のためのAIエージェント
Authors: Yi-Fan Zhang, Hang Li, Dingjie Song, Lichao Sun, Tianlong Xu, Qingsong Wen,
Abstract要約: 大規模言語モデル(LLM)は、GSM8Kのようなベンチマークでほぼ完璧なパフォーマンスを達成し、驚くべき数学的推論能力を示している。しかし、誤り診断やフィードバック生成よりも正確さが過大評価されているため、パーソナライズされた教育への応用は依然として限られている。 textbfMathCCSは,システム的エラー解析と修正されたフィードバックのためのベンチマークである。第2に、過去のデータを利用してトレンドを追跡し、診断精度を向上させるシーケンシャルなエラー解析フレームワークを開発する。第3に、歴史的分析のための時系列エージェントと実時間のためのMLLMエージェントを組み合わせたマルチエージェント協調フレームワークを提案する。
参考スコア（独自算出の注目度）: 24.970741456147447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs), such as GPT-4, have demonstrated impressive mathematical reasoning capabilities, achieving near-perfect performance on benchmarks like GSM8K. However, their application in personalized education remains limited due to an overemphasis on correctness over error diagnosis and feedback generation. Current models fail to provide meaningful insights into the causes of student mistakes, limiting their utility in educational contexts. To address these challenges, we present three key contributions. First, we introduce \textbf{MathCCS} (Mathematical Classification and Constructive Suggestions), a multi-modal benchmark designed for systematic error analysis and tailored feedback. MathCCS includes real-world problems, expert-annotated error categories, and longitudinal student data. Evaluations of state-of-the-art models, including \textit{Qwen2-VL}, \textit{LLaVA-OV}, \textit{Claude-3.5-Sonnet} and \textit{GPT-4o}, reveal that none achieved classification accuracy above 30\% or generated high-quality suggestions (average scores below 4/10), highlighting a significant gap from human-level performance. Second, we develop a sequential error analysis framework that leverages historical data to track trends and improve diagnostic precision. Finally, we propose a multi-agent collaborative framework that combines a Time Series Agent for historical analysis and an MLLM Agent for real-time refinement, enhancing error classification and feedback generation. Together, these contributions provide a robust platform for advancing personalized education, bridging the gap between current AI capabilities and the demands of real-world teaching.
Abstract（参考訳）: GPT-4のような大規模言語モデル(LLM)は、GSM8Kのようなベンチマークでほぼ完璧な性能を達成し、驚くべき数学的推論能力を示している。しかし、誤り診断やフィードバック生成よりも正確さが過大評価されているため、パーソナライズされた教育への応用は依然として限られている。現在のモデルは、学生の誤りの原因に関する有意義な洞察を与えず、教育的文脈においてその実用性を制限している。これらの課題に対処するために、私たちは3つの重要なコントリビューションを提示します。まず,システム的エラー解析と修正されたフィードバックのために設計されたマルチモーダルベンチマークである <textbf{MathCCS} (Mathematical Classification and Constructive Suggestions) を紹介する。 MathCCSには、現実世界の問題、専門家による注釈付きエラーカテゴリ、縦方向の学生データが含まれている。最先端のモデルの評価では、 \textit{Qwen2-VL}, \textit{LLaVA-OV}, \textit{Claude-3.5-Sonnet} や \textit{GPT-4o} は、分類精度が 30 % を超えなかったり、高品質な提案(平均スコアは 4/10 未満であった)が得られなかったことを示し、人間レベルのパフォーマンスと大きなギャップを浮き彫りにした。第2に、過去のデータを利用してトレンドを追跡し、診断精度を向上させるシーケンシャルなエラー解析フレームワークを開発する。最後に,時系列エージェントとMLLMエージェントを併用したマルチエージェント協調フレームワークを提案する。これらの貢献は、パーソナライズされた教育を促進するための堅牢なプラットフォームを提供し、現在のAI能力と現実世界の教育の需要とのギャップを埋める。

関連論文リスト

FindTheFlaws: Annotated Errors for Detecting Flawed Reasoning and Scalable Oversight Research [0.6286531904189063]
AIの監督を拡大するアプローチには、議論、批判、証明者検証ゲームが含まれる。 FindTheFlawsは医学、数学、科学、コーディング、ロジバン語にまたがる5つの多様なデータセットからなる。我々は、フロンティアモデルのクオリティ能力を評価し、スケーラブルな監視実験に活用できる幅広い性能を観察する。
論文参考訳（メタデータ） (2025-03-29T06:38:30Z)
VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models [40.87249469370042]
視覚言語モデル(VLRM)は、推論プロセスにおいてますます重要になっている。既存の視覚言語RM(VLRM)のベンチマークは、通常、その能力の1つの側面しか評価しない。我々は、12,634の質問を含むVLRMBenchと呼ばれる包括的で挑戦的なベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-10T15:52:57Z)
Performance Comparison of Large Language Models on Advanced Calculus Problems [0.0]
この研究は、ChatGPT 4o、1.5 Proを使ったGemini Advanced、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexityなど、モデルの正確性、信頼性、問題解決能力を評価することを目的としている。結果は、モデルのパフォーマンスにおける重要なトレンドとパターンを強調し、その長所と短所の両方を明らかにします。
論文参考訳（メタデータ） (2025-03-05T23:26:12Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。現在のエラー分類法は静的および事前定義されたカテゴリに依存している。 MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文参考訳（メタデータ） (2025-01-26T16:17:57Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation [15.895295957106772]
大規模言語モデル(LLMs)を評価するためのID誘発即時合成フレームワークを提案する。我々のデータ合成フレームワークは、幅と特異性の両方を優先し、LLMの能力を包括的に評価するプロンプトを生成することができる。我々は、LSMの評価研究を容易にするために、3000以上の慎重に作成されたプロンプトのデータセットをリリースする。
論文参考訳（メタデータ） (2024-09-27T16:29:12Z)
Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文参考訳（メタデータ） (2024-08-31T11:59:42Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-24T01:47:56Z)
MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and Classification [8.687019236393123]
我々は、以前の誤検出データセットをマージし、結合する誤検出分類のベンチマークであるMAFALDAを紹介する。ファラシーの既存の分類を調整し、洗練し、統一する分類法が付属している。主観的NLPタスクに適した新しいアノテーションスキームと主観性を扱うための新しい評価手法を提案する。
論文参考訳（メタデータ） (2023-11-16T10:35:11Z)
Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文参考訳（メタデータ） (2023-10-08T21:21:19Z)
A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文参考訳（メタデータ） (2023-07-25T17:02:38Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。