論文の概要: Improving Reward Models with Synthetic Critiques
- arxiv url: http://arxiv.org/abs/2405.20850v1
- Date: Fri, 31 May 2024 14:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:18:09.506263
- Title: Improving Reward Models with Synthetic Critiques
- Title(参考訳): 合成批評による逆流モデルの改善
- Authors: Zihuiwen Ye, Fraser Greenlee-Scott, Max Bartolo, Phil Blunsom, Jon Ander Campos, Matthias Gallé,
- Abstract要約: リワードモデル(RM)は、人間のフィードバックからの強化学習を通じて言語モデルを整合させる上で重要な役割を担っている。
本稿では,大規模言語モデルが生成する合成自然言語批判を用いて,新たなフィードバックを提供する手法を提案する。
本研究では,異なる事前学習モデルによるRMの性能とデータ効率の向上を実証する。
- 参考スコア(独自算出の注目度): 20.180933963110814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RM) play a critical role in aligning language models through the process of reinforcement learning from human feedback. RMs are trained to predict a score reflecting human preference, which requires significant time and cost for human annotation. Additionally, RMs tend to quickly overfit on superficial features in the training set, hindering their generalization performance on unseen distributions. We propose a novel approach using synthetic natural language critiques generated by large language models to provide additional feedback, evaluating aspects such as instruction following, correctness, and style. This offers richer signals and more robust features for RMs to assess and score on. We demonstrate that high-quality critiques improve the performance and data efficiency of RMs initialized from different pretrained models. Conversely, we also show that low-quality critiques negatively impact performance. Furthermore, incorporating critiques enhances the interpretability and robustness of RM training.
- Abstract(参考訳): リワードモデル(RM)は、人間のフィードバックからの強化学習を通じて言語モデルを整合させる上で重要な役割を担っている。
RMは人間の好みを反映したスコアを予測するために訓練される。
さらに、RMはトレーニングセットにおける表面的特徴に急速に過度に適合し、目に見えない分布に対する一般化性能を阻害する傾向にある。
提案手法は,大規模言語モデルが生成する合成自然言語批判を用いて,追加のフィードバックを提供し,指示の追従,正確性,スタイルなどの側面を評価するものである。
これにより、よりリッチな信号と、RMが評価とスコア付けを行うためのより堅牢な機能を提供します。
本研究では,異なる事前学習モデルから初期化したRMの性能とデータ効率の向上を実証する。
逆に、低品質な批評がパフォーマンスに悪影響を及ぼすことも示している。
さらに、批判を取り入れることで、RMトレーニングの解釈可能性や堅牢性が向上する。
関連論文リスト
- Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback [12.373566593905792]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の嗜好を整合させる基盤となっている。
我々は、文脈情報を統合した低ランク文脈RLHFフレームワークを提案し、異種フィードバックをより良くモデル化する。
提案手法は,ユーザコンテキストと問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ/問合せ-問合せ-問合せ-問合せ-問合せ間の相互作用の,本質的に低ランクな構造を利用した文脈選好モデルに基づく。
論文 参考訳(メタデータ) (2024-12-27T04:02:46Z) - Self-Generated Critiques Boost Reward Modeling for Language Models [57.60881438647227]
Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。
実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T18:28:26Z) - Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。