論文の概要: Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2406.12845v1
- Date: Tue, 18 Jun 2024 17:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 17:39:34.844210
- Title: Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts
- Title(参考訳): 多目的リワードモデリングとMixture-of-Expertsによる解釈可能な選好
- Authors: Haoxiang Wang, Wei Xiong, Tengyang Xie, Han Zhao, Tong Zhang,
- Abstract要約: 人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
- 参考スコア(独自算出の注目度): 23.27203570485055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has emerged as the primary method for aligning large language models (LLMs) with human preferences. The RLHF process typically starts by training a reward model (RM) using human preference data. Conventional RMs are trained on pairwise responses to the same user request, with relative ratings indicating which response humans prefer. The trained RM serves as a proxy for human preferences. However, due to the black-box nature of RMs, their outputs lack interpretability, as humans cannot intuitively understand why an RM thinks a response is good or not. As RMs act as human preference proxies, we believe they should be human-interpretable to ensure that their internal decision processes are consistent with human preferences and to prevent reward hacking in LLM alignment. To build RMs with interpretable preferences, we propose a two-stage approach: i) train an Absolute-Rating Multi-Objective Reward Model (ArmoRM) with multi-dimensional absolute-rating data, each dimension corresponding to a human-interpretable objective (e.g., honesty, verbosity, safety); ii) employ a Mixture-of-Experts (MoE) strategy with a gating network that automatically selects the most suitable reward objectives based on the context. We efficiently trained an ArmoRM with Llama-3 8B and a gating network consisting of a shallow MLP on top of the ArmoRM. Our trained model, ArmoRM-Llama3-8B, obtains state-of-the-art performance on RewardBench, a benchmark evaluating RMs for language modeling. Notably, the performance of our model surpasses the LLM-as-a-judge method with GPT-4 judges by a margin, and approaches the performance of the much larger Nemotron-4 340B reward model.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)が,大規模言語モデル(LLM)と人間の嗜好を整合させる主要な手法として登場した。
RLHFプロセスは通常、人間の嗜好データを使用して報酬モデル(RM)をトレーニングすることから始まる。
従来のRMは、人間がどの反応を好むかを示す相対的な評価で、同じユーザ要求に対してペアワイズに反応するよう訓練されている。
訓練されたRMは人間の嗜好のプロキシとして機能する。
しかしながら、RMのブラックボックスの性質のため、その出力は解釈可能性に欠けており、RMが応答が良いとみなす理由を人間が直感的に理解できない。
RMは人間の嗜好のプロキシとして機能するので、内部決定プロセスが人間の嗜好と一致していることを確認し、LLMアライメントにおける報酬ハッキングを防止するために、人間解釈可能であるべきだと考えています。
解釈可能な好みを持つRMを構築するために,我々は2段階のアプローチを提案する。
一 絶対関係多目的回帰モデル(ArmoRM)を多次元絶対値データで訓練し、それぞれが人間の解釈可能な目的(例えば、正直性、冗長性、安全性)に対応する。
ii)Mixture-of-Experts(MoE)戦略とゲーティングネットワークを用いて、コンテキストに基づいて最適な報酬目標を自動的に選択する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上に浅いMLPからなるゲーティングネットワークを構築した。
我々のトレーニングモデルであるArmoRM-Llama3-8Bは、言語モデリングのためのRMを評価するベンチマークであるRewardBench上で最先端のパフォーマンスを得る。
特に,本モデルの性能は,GPT-4判定器を用いたLCM-as-a-judge法をはるかに上回り,さらに大きなNemotron-4 340B報酬モデルの性能に近づいた。
関連論文リスト
- RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文 参考訳(メタデータ) (2024-03-02T12:31:22Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Axiomatic Preference Modeling for Longform Question Answering [15.675861802061078]
そこで我々は,人間の嗜好を維持するために,多種多様な嗜好信号を生成するための公理的枠組みを開発した。
我々はこれらの公理的信号を用いて、長大な質問に対する回答を評価するためのモデルを訓練する。
提案手法は,GPT-4よりも高い頻度で,ゴールドアノテートされた選好ラベルに適合する約220万のパラメータを持つ選好モデルである。
論文 参考訳(メタデータ) (2023-12-02T23:11:41Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。