論文の概要: General Preference Modeling with Preference Representations for Aligning Language Models
- arxiv url: http://arxiv.org/abs/2410.02197v1
- Date: Thu, 3 Oct 2024 04:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:06:03.877617
- Title: General Preference Modeling with Preference Representations for Aligning Language Models
- Title(参考訳): 適応型言語モデルに対する参照表現を用いた一般参照モデリング
- Authors: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu,
- Abstract要約: 我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
- 参考スコア(独自算出の注目度): 51.14207112118503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling human preferences is crucial for aligning foundation models with human values. Traditional reward modeling methods, such as the Bradley-Terry (BT) reward model, fall short in expressiveness, particularly in addressing intransitive preferences. Although supervised pair preference models (PairPM) can express general preferences, their implementation is highly ad-hoc and cannot guarantee a consistent preference probability of compared pairs. Additionally, they impose high computational costs due to their quadratic query complexity when comparing multiple responses. In this paper, we introduce preference representation learning, an approach that embeds responses into a latent space to capture intricate preference structures efficiently, achieving linear query complexity. Additionally, we propose preference score-based General Preference Optimization (GPO), which generalizes reward-based reinforcement learning from human feedback. Experimental results show that our General Preference representation model (GPM) outperforms the BT reward model on the RewardBench benchmark with a margin of up to 5.6% and effectively models cyclic preferences where any BT reward model behaves like a random guess. Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and MT-Bench, following the language model post-training with GPO and our general preference model, reveal substantial performance improvements with margins up to 9.3%. These findings indicate that our method may enhance the alignment of foundation models with nuanced human values. The code is available at https://github.com/general-preference/general-preference-model.
- Abstract(参考訳): 人間の嗜好をモデル化することは、基礎モデルと人間の価値の整合に不可欠である。
ブラッドリー・テリー(BT)報酬モデルのような伝統的な報酬モデリング手法は、特に非推移的嗜好に対処する際、表現力に乏しい。
教師付きペア選好モデル(PairPM)は一般的な選好を表現できるが、それらの実装は非常にアドホックであり、比較ペアの一貫性のある選好確率を保証できない。
さらに、複数の応答を比較する際の2次クエリの複雑さにより、高い計算コストを課す。
本稿では,遅延空間に応答を埋め込んで複雑な嗜好構造を効率的に捕捉し,線形クエリの複雑さを実現する方法である選好表現学習を提案する。
また、人間のフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般優先度最適化(GPO)を提案する。
実験結果から,我々の一般選好表現モデル(GPM)は,RewardBenchベンチマークにおいて最大5.6%のマージンでBT報酬モデルよりも優れており,BT報酬モデルがランダムな推測のように振る舞うような循環選好を効果的にモデル化できることが示唆された。
さらに、GPOによる言語モデルと一般的な嗜好モデルを用いた後、AlpacaEval2.0やMT-Benchといった下流タスクの評価では、マージンが最大9.3%向上した。
これらの結果から,本手法は基礎モデルの微妙な人的価値との整合性を高める可能性が示唆された。
コードはhttps://github.com/ general-preference/ general-preference-modelで公開されている。
関連論文リスト
- Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives [14.401557416713315]
報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。
我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。
既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:57:03Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences [6.398937923320069]
我々は、既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。
PALは,強いベースラインと比較して,競争報酬モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2024-06-12T17:54:54Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Axiomatic Preference Modeling for Longform Question Answering [15.675861802061078]
そこで我々は,人間の嗜好を維持するために,多種多様な嗜好信号を生成するための公理的枠組みを開発した。
我々はこれらの公理的信号を用いて、長大な質問に対する回答を評価するためのモデルを訓練する。
提案手法は,GPT-4よりも高い頻度で,ゴールドアノテートされた選好ラベルに適合する約220万のパラメータを持つ選好モデルである。
論文 参考訳(メタデータ) (2023-12-02T23:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。