論文の概要: Developing and Evaluating a Large Language Model-Based Automated Feedback System Grounded in Evidence-Centered Design for Supporting Physics Problem Solving
- arxiv url: http://arxiv.org/abs/2512.10785v1
- Date: Thu, 11 Dec 2025 16:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.461179
- Title: Developing and Evaluating a Large Language Model-Based Automated Feedback System Grounded in Evidence-Centered Design for Supporting Physics Problem Solving
- Title(参考訳): 物理問題解決支援のためのエビデンス中心設計に基づく大規模言語モデルに基づく自動フィードバックシステムの開発と評価
- Authors: Holger Maus, Paul Tschisgale, Fabian Kieser, Stefan Petersen, Peter Wulff,
- Abstract要約: 本研究では,エビデンス中心設計(ECD)に基づく物理問題解決のためのLLMに基づくフィードバックシステムの設計について述べる。
提案手法は,一般的に有用かつ高精度であるとみなされるフィードバックの有用性と正確性を評価する。
詳細な分析では、フィードバックには20%のケースで事実的エラーが含まれており、学生がよく気づかないエラーがあった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI offers new opportunities for individualized and adaptive learning, particularly through large language model (LLM)-based feedback systems. While LLMs can produce effective feedback for relatively straightforward conceptual tasks, delivering high-quality feedback for tasks that require advanced domain expertise, such as physics problem solving, remains a substantial challenge. This study presents the design of an LLM-based feedback system for physics problem solving grounded in evidence-centered design (ECD) and evaluates its performance within the German Physics Olympiad. Participants assessed the usefulness and accuracy of the generated feedback, which was generally perceived as useful and highly accurate. However, an in-depth analysis revealed that the feedback contained factual errors in 20% of cases; errors that often went unnoticed by the students. We discuss the risks associated with uncritical reliance on LLM-based feedback systems and outline potential directions for generating more adaptive and reliable LLM-based feedback in the future.
- Abstract(参考訳): Generative AIは、特に大規模言語モデル(LLM)ベースのフィードバックシステムを通じて、個別化および適応学習のための新たな機会を提供する。
LLMは比較的単純な概念的なタスクに対して効果的なフィードバックを生成することができるが、物理学的な問題解決のような高度な分野の専門知識を必要とするタスクに対して高品質なフィードバックを提供することは、依然として大きな課題である。
本研究では,エビデンス中心設計(ECD)に基づく物理問題解決のためのLLMに基づくフィードバックシステムの設計と,その性能評価を行う。
参加者は生成したフィードバックの有用性と正確さを評価した。
しかし、詳細な分析の結果、フィードバックには20%のケースで事実的誤りが含まれており、学生がしばしば気付かなかった誤りが見られた。
我々は,LLMに基づくフィードバックシステムへの非クリティカルな依存に関連するリスクについて論じ,将来,より適応的で信頼性の高いLLMベースのフィードバックを生成するための潜在的な方向性を概説する。
関連論文リスト
- Personalized and Constructive Feedback for Computer Science Students Using the Large Language Model (LLM) [0.8409304328108455]
本稿では,学生評価における言語モデル(LLM)の性能について,事前に定義されたルーリックとマーキング基準を用いて検討する。
我々は,既存のLCMによるマーキングアセスメント,追跡,評価(LLM-MATE)の力を活用して,学生の学習を促進することを目的としている。
論文 参考訳(メタデータ) (2025-10-13T15:59:30Z) - Evaluating GPT- and Reasoning-based Large Language Models on Physics Olympiad Problems: Surpassing Human Performance and Implications for Educational Assessment [0.0]
大規模言語モデル(LLM)は現在広く利用されており、すべての教育レベルで学習者が利用できる。
本研究では,汎用LLM (GPT-4o) と推論最適化モデル (o1-preview) の問題解決性能を,ドイツの物理オリンピック参加者と比較した。
論文 参考訳(メタデータ) (2025-05-14T14:46:32Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Enhancing LLM-Based Feedback: Insights from Intelligent Tutoring Systems and the Learning Sciences [0.0]
この研究は、ITSのフィードバック生成に関する以前の研究を通し、AIEDの研究を慎重に支援するものである。
本論文の主な貢献は次のとおりである。 生成AIの時代におけるフィードバック生成において、より慎重で理論的に基礎付けられた手法を適用すること。
論文 参考訳(メタデータ) (2024-05-07T20:09:18Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。