論文の概要: Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.01304v1
- Date: Sat, 2 Mar 2024 20:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:17:42.183368
- Title: Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning
- Title(参考訳): 強化学習による自動生成フィードバックの有効性向上
- Authors: Alexander Scarlatos, Digory Smith, Simon Woodhead, Andrew Lan
- Abstract要約: 強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
- 参考スコア(独自算出の注目度): 50.067342343957876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically generating feedback via large language models (LLMs) in
intelligent tutoring systems and online learning platforms has the potential to
improve the learning outcomes of many students. However, both feedback
generation and evaluation are challenging: feedback content has to be valid
especially in subjects like math, which requires models to understand the
problem, the solution, and where the student's error lies. Feedback also has to
be pedagogically valid to reflect effective tutoring strategies, such as
explaining possible misconceptions and encouraging the student, among other
desirable features. In this work, we address both problems of automatically
generating and evaluating feedback while considering both correctness and
alignment. First, we propose a rubric for evaluating math feedback and show
that GPT-4 is able to effectively use it to annotate human-written and
LLM-generated feedback. Second, we propose a framework for feedback generation
that optimizes both correctness and alignment using reinforcement learning
(RL). Specifically, we use GPT-4's annotations to create preferences over
feedback pairs in an augmented dataset for training via direct preference
optimization (DPO). We show that our methods significantly increase the
correctness and alignment of generated feedback with Llama 2, an open-source
LLM, qualitatively analyze our generation and evaluation systems using case
studies, and outline several areas for future work.
- Abstract(参考訳): 知的学習システムやオンライン学習プラットフォームにおける大規模言語モデル(LLM)によるフィードバックの自動生成は、多くの学生の学習結果を改善する可能性がある。
フィードバックコンテンツは特に数学のような主題において有効でなければならず、問題や解決策、学生の誤りがどこにあるのかをモデルが理解する必要がある。
フィードバックはまた、考えられる誤解の説明や学生の励ましなど、効果的な教育戦略を反映するために教育的に有効である必要がある。
本研究では,正当性と整合性を考慮したフィードバックの自動生成と評価の両問題に対処する。
まず,GPT-4 が人間の記述や LLM 生成のフィードバックに効果的に利用できることを示す。
第2に,強化学習(rl)を用いた正確性とアライメントを最適化したフィードバック生成フレームワークを提案する。
具体的には、GPT-4のアノテーションを使用して、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、フィードバックペアよりも好みを生成する。
提案手法は,Llama 2 を用いて生成したフィードバックの正当性とアライメントを著しく向上させ,ケーススタディを用いて定性的に生成・評価システムを解析し,今後の課題について概説する。
関連論文リスト
- Evaluating and Optimizing Educational Content with Large Language Model
Judgments [58.82156185222133]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Students' Perceptions and Preferences of Generative Artificial
Intelligence Feedback for Programming [15.372316943507506]
そこで我々はChatGPT APIを用いて,導入型コンピュータサイエンスクラスにおける4つの実験室割り当てのための自動フィードバックを生成した。
学生は、フィードバックは、Shuteが確立した形式的なフィードバックガイドラインとよく一致していると感じた。
学生は通常、十分なコード例で特定の修正フィードバックを期待していたが、フィードバックのトーンについて意見が分かれていた。
論文 参考訳(メタデータ) (2023-12-17T22:26:53Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Using Large Language Models to Provide Explanatory Feedback to Human
Tutors [3.2507682694499582]
オンライン授業において,教師にリアルタイムフィードバックを提供するための2つのアプローチを提案する。
このワーク・イン・プログレス(英語版)は、効果的な、あるいは努力に基づく修正フィードバックのためのバイナリ分類においてかなりの精度を示す。
より具体的には、大言語モデルに精通した名前付きエンティティ認識を用いた説明的フィードバックを提供するための拡張されたアプローチについて紹介する。
論文 参考訳(メタデータ) (2023-06-27T14:19:12Z) - System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。
検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文 参考訳(メタデータ) (2023-06-23T16:21:40Z) - Generating Language Corrections for Teaching Physical Control Tasks [21.186109830294072]
CORGIは、物理制御タスクのための言語修正を生成するために訓練されたモデルである。
CORGIは(i)新しい学生軌跡に対する有効なフィードバックを生成でき、(ii)新しい制御ダイナミクスを持つドメインのベースラインを上回り、(iii)インタラクティブな描画タスクにおける生徒の学習を改善することができることを示す。
論文 参考訳(メタデータ) (2023-06-12T10:31:16Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Deep Discourse Analysis for Generating Personalized Feedback in
Intelligent Tutor Systems [4.716555240531893]
ITS(Intelligent Tutoring System)で、自動化されたパーソナライズされたフィードバックの作成を検討します。
我々のゴールは、学生のより優れた学習目標を達成するために、学生の回答の正しい概念と間違った概念を見極めることである。
論文 参考訳(メタデータ) (2021-03-13T20:33:10Z) - Automated Personalized Feedback Improves Learning Gains in an
Intelligent Tutoring System [34.19909376464836]
大規模知的学習システム(ITS)における自動的、データ駆動型、パーソナライズされたフィードバックが、学生の学習結果をいかに改善するかを検討する。
本稿では,個別の学生のニーズを考慮に入れたパーソナライズされたフィードバックを生成する機械学習手法を提案する。
我々は、最先端の機械学習と自然言語処理技術を利用して、学生にパーソナライズされたヒント、ウィキペディアに基づく説明、数学的ヒントを提供する。
論文 参考訳(メタデータ) (2020-05-05T18:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。