論文の概要: A Multi-Agent Approach to Validate and Refine LLM-Generated Personalized Math Problems
- arxiv url: http://arxiv.org/abs/2604.05160v1
- Date: Mon, 06 Apr 2026 20:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.483423
- Title: A Multi-Agent Approach to Validate and Refine LLM-Generated Personalized Math Problems
- Title(参考訳): LLM生成パーソナライズされた数学問題の検証と再定義のためのマルチエージェントアプローチ
- Authors: Fareya Ikram, Nischal Ashok Kumar, Junyang Lu, Hunter McNichols, Candace Walkington, Neil Heffernan, Andrew S. Lan,
- Abstract要約: 本稿では,パーソナライズを反復生成-検証-修正プロセスとして形式化するフレームワークを提案する。
可解性, 現実性, 可読性, 真正性の基準を対象とする, 4つの特殊検証エージェントを用いた。
我々は、人気のあるオンライン数学の宿題プラットフォームであるASSISTmentsから引き出された600の問題の枠組みを評価した。
- 参考スコア(独自算出の注目度): 5.687145473906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Students benefit from math problems contextualized to their interests. Large language models (LLMs) offer promise for efficient personalization at scale. However, LLM-generated personalized problems may often have problems such as unrealistic quantities and contexts, poor readability, limited authenticity with respect to students' experiences, and occasional mathematical inconsistencies. To alleviate these problems, we propose a multi-agent framework that formalizes personalization as an iterative generate--validate--revise process; we use four specialized validator agents targeting the criteria of solvability, realism, readability, and authenticity, respectively. We evaluate our framework on 600 problems drawn from a popular online mathematics homework platform, ASSISTments, personalizing each problem to a fixed set of 20 student interest topics. We compare three refinement strategies that differ in how validation feedback is coordinated into revisions. Results show that authenticity and realism are the most frequent failure modes in initial LLM-personalized problems, but that a single refinement iteration substantially reduces these failures. We further find that different refinement strategies have different strengths on different criteria. We also assess validator reliability via human evaluation. Results show that reliability is highest on realism and lowest on authenticity, highlighting the need for better evaluation protocols that consider teachers' and students' personal characteristics.
- Abstract(参考訳): 学生は、自分の興味に文脈化された数学の問題から恩恵を受ける。
大規模言語モデル(LLM)は、大規模で効率的なパーソナライズを約束する。
しかし、LLMが生成したパーソナライズされた問題には、非現実的な量や文脈、可読性の低さ、学生の経験に対する限られた信頼性、時には数学的不整合といった問題がある。
これらの問題を緩和するために, 個人化を反復生成-検証-修正プロセスとして形式化するマルチエージェントフレームワークを提案し, 可解性, リアリズム, 可読性, 信頼性の基準を目標とした4つの特殊検証エージェントを用いた。
我々は,一般的なオンライン数学の宿題プラットフォームであるASSISTmentsから引き出された600の問題の枠組みを評価し,各問題を20の学生関心トピックの固定セットにパーソナライズする。
検証フィードバックの調整方法が異なる3つの改善戦略を比較した。
その結果,LLMの個人化問題において,信頼度とリアリズムは最も頻繁な障害モードであることがわかった。
さらに、異なる改善戦略は異なる基準で異なる強みを持つことがわかりました。
また,人間による評価によって検証者の信頼性を評価する。
その結果、信頼性は現実主義が最も高く、信頼度は最低であり、教師や生徒の個人的特性を考慮したより良い評価プロトコルの必要性が浮き彫りになった。
関連論文リスト
- Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math [55.83696908107408]
スクラッチマス(ScratchMath)は,手書き数学のスクラッチワークにおける誤りの説明と分類のための新しいベンチマークである。
本データセットは,中国初等・中等生の1,720個の数学サンプルからなる。
我々は,ScratchMath上での16のMLLMを系統的に評価し,人的専門家に対する顕著な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-03-26T02:57:20Z) - SMART: Self-Generating and Self-Validating Multi-Dimensional Assessment for LLMs' Mathematical Problem Solving [24.689620248781214]
大規模言語モデル(LLM)は、様々な数学的なベンチマークで顕著な結果を得た。
最終回答か推論プロセスに焦点をあてた共通評価手法は、問題解決手順全体を評価するのに失敗する。
この結果から,現在のLCMの真の弱点が明らかとなり,新たな指標であるオールパススコア(All-Pass Score)のモチベーションが得られた。
論文 参考訳(メタデータ) (2025-05-22T13:18:24Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。