論文の概要: PERSA: Reinforcement Learning for Professor-Style Personalized Feedback with LLMs
- arxiv url: http://arxiv.org/abs/2605.01123v1
- Date: Fri, 01 May 2026 21:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.594876
- Title: PERSA: Reinforcement Learning for Professor-Style Personalized Feedback with LLMs
- Title(参考訳): PERSA:LLMを用いた教授型パーソナライズされたフィードバックのための強化学習
- Authors: Ravi Ranjan, Utkarsh Grover, Xiaomin Lin, Agoritsa Polyzou,
- Abstract要約: 本研究では,人間フィードバックからの強化学習をトランスフォーマーベースのLLMに適応させて,教授の音声レベルに適合するプログラミングフィードバックを生成する方法について検討する。
RLHFパイプラインであるPERSAを導入し、教授のデモンストレーションの教師付き微調整、ペアの選好からの報酬モデリング、およびプロキシポリシー最適化について紹介する。
我々は,3つのコードフィードバックベンチマーク(APPS,PyFiXV,CodeReviewQA)に対して,スタイルアライメントと忠実度を補完する指標を用いて提案手法を評価した。
- 参考スコア(独自算出の注目度): 1.8986796884429726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can provide automated feedback in educational settings, but aligning an LLMs style with a specific instructors tone while maintaining diagnostic correctness remains challenging. We ask how can we update an LLM for automated feedback generation to align with a target instructors style without sacrificing core knowledge? We study how Reinforcement Learning from Human Feedback (RLHF) can adapt a transformer-based LLM to generate programming feedback that matches a professors grading voice. We introduce PERSA, an RLHF pipeline that combines supervised fine-tuning on professor demonstrations, reward modeling from pairwise preferences, and Proximal Policy Optimization (PPO), while deliberately constraining learning to style-bearing components. Motivated by analyses of transformer internals, PERSA applies parameter efficient fine-tuning. It updates only the top transformer blocks and their feed-forward projections, minimizing global parameter drift while increasing stylistic controllability. We evaluate our proposed approach on three code-feedback benchmarks (APPS, PyFiXV, and CodeReviewQA) using complementary metrics for style alignment and fidelity. Across both Llama-3 and Gemma-2 backbones, PERSA delivers the strongest professor-style transfer while retaining correctness, for example on APPS, it boosts Style Alignment Score (SAC) to 96.2% (from 34.8% for Base) with Correctness Accuracy (CA) up to 100% on Llama-3, and Gemma-2. Overall, PERSA offers a practical route to personalized educational feedback by aligning both what it says (content correctness) and, crucially, how it says it (instructor-like tone and structure).
- Abstract(参考訳): 大きな言語モデル(LLM)は、教育環境では自動的なフィードバックを提供するが、LLMスタイルを特定のインストラクターのトーンに合わせることは困難である。
私たちは、コア知識を犠牲にすることなく、ターゲットインストラクタースタイルに合わせるために、自動フィードバック生成のためのLLMをどうやって更新できるかを尋ねる。
本研究では,人間フィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)が,変圧器をベースとしたLLMに適応して,教授が発声した音声にマッチするプログラミングフィードバックを生成する方法について検討する。
本稿では,PPO(Proximal Policy Optimization)とPPO(Proximal Policy Optimization)を組み合わせたRLHFパイプラインを紹介する。
変換器内部の解析によって動機づけられたPERSAは、パラメータ効率のよい微調整を施す。
トップトランスブロックとフィードフォワードプロジェクションのみを更新し、スタイリスティックな制御性を高めながら、グローバルパラメータドリフトを最小限にする。
我々は,3つのコードフィードバックベンチマーク(APPS,PyFiXV,CodeReviewQA)に対して,スタイルアライメントと忠実度を補完する指標を用いて提案手法を評価した。
Llama-3 と Gemma-2 のバックボーン全体にわたって、PERSA は、例えばAPPS では、正当性を保ちながら、最強の教授スタイルの転送を提供しており、スタイルアライメントスコア (SAC) は96.2%(ベースは 34.8% から)に向上し、補正精度 (CA) は Llama-3 と Gemma-2 で 100% まで向上している。
PERSAは、その言葉(内容の正しさ)と、その言葉(インストラクタのようなトーンと構造)の両方を合わせることによって、パーソナライズされた教育フィードバックへの実践的なルートを提供する。
関連論文リスト
- Listen, Correct, and Feed Back: Spoken Pedagogical Feedback Generation [25.967830220467633]
我々は,Speak & Improve Challenge 2025コーパスに基づくデータセットであるtextbfSPFG (textbfSpoken textbfPedagogical textbfFeedback textbfGeneration)を紹介する。
書き起こしによる文法的誤り訂正(SGEC)の設定について検討し、3つの命令調整LDM(Qwen2.5, Llama-3.1, GLM-4)を評価する。
結果は、SFTが最も一貫した改善を提供する一方で、(DPOとKTOを使用して)嗜好に基づくアライメントが可能であることを示している。
論文 参考訳(メタデータ) (2026-03-28T07:47:29Z) - Expanding the Capabilities of Reinforcement Learning via Text Feedback [49.561885700139676]
テキストフィードバックをトレーニング中に利用できるが、推論では利用できないマルチターンRLセットアップであるテキストフィードバック(RLTF)を形式化する。
そこで本研究では, 自己蒸留法(RLTF-SD)と, フィードバック条件付き第2ターン世代に適合するように単一ターンポリシーを訓練するフィードバックモデリング法(RLTF-FM)の2つの手法を提案する。
以上の結果から,両手法はベンチマークにおいて強いベースラインを一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-02T18:56:56Z) - Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文 参考訳(メタデータ) (2025-04-07T23:57:32Z) - Online Preference-based Reinforcement Learning with Self-augmented Feedback from Large Language Model [17.4036850872656]
嗜好に基づく強化学習(PbRL)は、人間の嗜好に基づいて報酬を学習することで、巧妙な報酬工学を避けるための強力なパラダイムを提供する。
本稿では,オンラインPbRLの特権情報に依存しないRL自己拡張大言語モデルフィードバック(RL-SaLLM-F)手法を提案する。
論文 参考訳(メタデータ) (2024-12-22T06:15:25Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。
本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。
オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-07T12:31:13Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Interpreting Learned Feedback Patterns in Large Language Models [31.133685891389774]
我々は、微調整言語モデルのアクティベーションにおいて暗黙的にフィードバック信号を推定するプローブを訓練する。
これらの推定値を真のフィードバックと比較し、LFPの精度を微調整フィードバックと比較する。
我々は、GPT-4が記述し、LFPに関連するものとして分類する特徴に対して、正のフィードバック入力と相関する神経特徴を比較して、プローブを検証する。
論文 参考訳(メタデータ) (2023-10-12T09:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。