論文の概要: Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment
- arxiv url: http://arxiv.org/abs/2505.10597v1
- Date: Thu, 15 May 2025 10:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.275402
- Title: Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment
- Title(参考訳): LLMアライメントのための協調リワードモデリング
- Authors: Jiazheng Zhang, Wenqing Jing, Zizhuo Zhang, Zhiheng Xi, Shihan Dou, Rongxiang Weng, Jiahuan Li, Jingang Wang, MingXu Cai, Shibo Hong, Tao Gui, Qi Zhang,
- Abstract要約: 人間のフィードバックのノイズの多い好みは、しばしば報酬の一般化につながる。
ピアレビューとカリキュラム学習を組み合わせることでロバスト性を高めるオンラインフレームワークであるCollaborative Reward Modelingを提案する。
大規模な実験ではCRMが一般化を改善し、RewardBenchでは40%のラベルノイズで9.94ポイントの精度向上を実現している。
- 参考スコア(独自算出の注目度): 35.80989342492335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are essential for aligning large language models (LLMs) with human values. However, noisy preferences in human feedback often lead to reward misgeneralization, where RMs overfit to spurious patterns and provide misleading signals during policy optimization. We systematically analyze the training dynamics of preference pairs and identify that noisy examples are harder to fit and introduce instability. Empirical evidence shows that LLMs optimized using reward models trained on full noisy datasets perform worse than those trained on filtered, high-quality preferences. To address this, we propose Collaborative Reward Modeling (CRM), an online framework that enhances robustness by combining peer review and curriculum learning. Two reward models are trained in parallel and assess each other's data selections to filter out potential noise. Curriculum learning structures the preference data from easy to hard, ensuring synchronized training and stable feedback. Extensive experiments demonstrate that CRM improves generalization, with up to 9.94 points of accuracy gain on RewardBench under 40 percent label noise. CRM is also compatible with implicit-reward alignment methods, offering a practical and versatile strategy for robust alignment.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の値の整合に不可欠である。
しかしながら、人間のフィードバックにおけるノイズの多い選好は、RMがポリシー最適化の過程で、刺激的なパターンに過度に適合し、誤ったシグナルを提供するという、報酬の一般化につながることが多い。
選好ペアのトレーニングダイナミクスを体系的に解析し,ノイズのある例が適合しにくいこと,不安定性を導入することを明らかにする。
実験的な証拠は、LLMが完全ノイズデータセットでトレーニングされた報酬モデルを使用して最適化されていることを示しています。
これを解決するために、ピアレビューとカリキュラム学習を組み合わせることで堅牢性を高めるオンラインフレームワークであるコラボレーティブ・リワード・モデリング(CRM)を提案する。
2つの報酬モデルが並列にトレーニングされ、潜在的なノイズを除去するために互いのデータ選択を評価する。
カリキュラム学習は、好みデータを簡単からハードに構成し、同期トレーニングと安定したフィードバックを確保する。
大規模な実験ではCRMが一般化を改善し、RewardBenchでは40%のラベルノイズで9.94ポイントの精度向上を実現している。
CRMは暗黙の逆アライメントメソッドとも互換性があり、ロバストアライメントのための実用的で汎用的な戦略を提供する。
関連論文リスト
- Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。