Fugu-MT 論文翻訳(概要): Improving the Validity of Automatically Generated Feedback via Reinforcement Learning

論文の概要: Improving the Validity of Automatically Generated Feedback via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2403.01304v1
Date: Sat, 2 Mar 2024 20:25:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 14:17:42.183368
Title: Improving the Validity of Automatically Generated Feedback via Reinforcement Learning
Title（参考訳）: 強化学習による自動生成フィードバックの有効性向上
Authors: Alexander Scarlatos, Digory Smith, Simon Woodhead, Andrew Lan
Abstract要約: 強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
参考スコア（独自算出の注目度）: 50.067342343957876
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatically generating feedback via large language models (LLMs) in intelligent tutoring systems and online learning platforms has the potential to improve the learning outcomes of many students. However, both feedback generation and evaluation are challenging: feedback content has to be valid especially in subjects like math, which requires models to understand the problem, the solution, and where the student's error lies. Feedback also has to be pedagogically valid to reflect effective tutoring strategies, such as explaining possible misconceptions and encouraging the student, among other desirable features. In this work, we address both problems of automatically generating and evaluating feedback while considering both correctness and alignment. First, we propose a rubric for evaluating math feedback and show that GPT-4 is able to effectively use it to annotate human-written and LLM-generated feedback. Second, we propose a framework for feedback generation that optimizes both correctness and alignment using reinforcement learning (RL). Specifically, we use GPT-4's annotations to create preferences over feedback pairs in an augmented dataset for training via direct preference optimization (DPO). We show that our methods significantly increase the correctness and alignment of generated feedback with Llama 2, an open-source LLM, qualitatively analyze our generation and evaluation systems using case studies, and outline several areas for future work.
Abstract（参考訳）: 知的学習システムやオンライン学習プラットフォームにおける大規模言語モデル(LLM)によるフィードバックの自動生成は、多くの学生の学習結果を改善する可能性がある。フィードバックコンテンツは特に数学のような主題において有効でなければならず、問題や解決策、学生の誤りがどこにあるのかをモデルが理解する必要がある。フィードバックはまた、考えられる誤解の説明や学生の励ましなど、効果的な教育戦略を反映するために教育的に有効である必要がある。本研究では,正当性と整合性を考慮したフィードバックの自動生成と評価の両問題に対処する。まず,GPT-4 が人間の記述や LLM 生成のフィードバックに効果的に利用できることを示す。第2に,強化学習(rl)を用いた正確性とアライメントを最適化したフィードバック生成フレームワークを提案する。具体的には、GPT-4のアノテーションを使用して、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、フィードバックペアよりも好みを生成する。提案手法は,Llama 2 を用いて生成したフィードバックの正当性とアライメントを著しく向上させ,ケーススタディを用いて定性的に生成・評価システムを解析し,今後の課題について概説する。

関連論文リスト

From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [76.09281171131941]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T15:00:07Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses [0.0]
本研究では,大規模言語モデル(LLM)が数学教育における自動フィードバックを促進する可能性を探究することを目的とする。我々は,Llamaの数学版であるMistralを採用し,このモデルを用いて,中学校数学問題に対する生徒の回答と教師によるフィードバックのデータセットを活用することによって,学生の反応を評価する。 2人の教師の判断を生かして,評価精度とフィードバックの質を評価する。
論文参考訳（メタデータ） (2024-10-29T16:57:45Z)
Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions [6.216542656489173]
本稿では,LM シミュレーションによる学生のリビジョンの学習を通じてフィードバックを生成できる ProF を提案する。本稿では,PROFの有効性を実証的に検証し,本手法が学生の筆跡改善に有効であることを示す。
論文参考訳（メタデータ） (2024-10-10T15:52:48Z)
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文参考訳（メタデータ） (2024-06-24T17:19:34Z)
Mining patterns in syntax trees to automate code reviews of student solutions for programming exercises [0.0]
本稿では,教育コードレビューにおけるフィードバックの再利用を自動化する機械学習手法ECHOを紹介する。自動リンティングツールとヒューマンレビュアーの両方のアノテーションに基づいて,ECHOが適切なフィードバックアノテーションを正確かつ迅速に予測できることを示す。
論文参考訳（メタデータ） (2024-04-26T14:03:19Z)
Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文参考訳（メタデータ） (2024-03-05T09:09:15Z)
Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文参考訳（メタデータ） (2023-10-10T09:20:14Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
Using Large Language Models to Provide Explanatory Feedback to Human Tutors [3.2507682694499582]
オンライン授業において,教師にリアルタイムフィードバックを提供するための2つのアプローチを提案する。このワーク・イン・プログレス(英語版)は、効果的な、あるいは努力に基づく修正フィードバックのためのバイナリ分類においてかなりの精度を示す。より具体的には、大言語モデルに精通した名前付きエンティティ認識を用いた説明的フィードバックを提供するための拡張されたアプローチについて紹介する。
論文参考訳（メタデータ） (2023-06-27T14:19:12Z)
System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文参考訳（メタデータ） (2023-06-23T16:21:40Z)
Deep Discourse Analysis for Generating Personalized Feedback in Intelligent Tutor Systems [4.716555240531893]
ITS(Intelligent Tutoring System)で、自動化されたパーソナライズされたフィードバックの作成を検討します。我々のゴールは、学生のより優れた学習目標を達成するために、学生の回答の正しい概念と間違った概念を見極めることである。
論文参考訳（メタデータ） (2021-03-13T20:33:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。