論文の概要: Aligning Crowd Feedback via Distributional Preference Reward Modeling
- arxiv url: http://arxiv.org/abs/2402.09764v1
- Date: Thu, 15 Feb 2024 07:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:45:01.771730
- Title: Aligning Crowd Feedback via Distributional Preference Reward Modeling
- Title(参考訳): 分布的選好報酬モデルによる群衆フィードバックの調整
- Authors: Dexun Li, Cong Zhang, Kuicai Dong, Derrick Goh Xin Deik, Ruiming Tang,
Yong Liu
- Abstract要約: 本研究では,大きな言語モデルと人間の好みの多様なセットを一致させるために,DPRM(Distributal Preference Reward Model)を導入する。
実験の結果,DPRM は LLM と人口嗜好の整合性を著しく向上させ,より正確で偏りがなく,文脈的に適切な応答をもたらすことが示された。
- 参考スコア(独自算出の注目度): 30.468757225982557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning is widely used for aligning Large Language Models
(LLM) with human preference. However, the conventional reward modelling has
predominantly depended on human annotations provided by a select cohort of
individuals. Such dependence may unintentionally result in models that are
skewed to reflect the inclinations of these annotators, thereby failing to
represent the expectations of the wider population adequately. In this paper,
we introduce the Distributional Preference Reward Model (DPRM), a simple yet
effective framework to align large language models with a diverse set of human
preferences. To this end, we characterize the preferences by a beta
distribution, which can dynamically adapt to fluctuations in preference trends.
On top of that, we design an optimal-transportation-based loss to calibrate
DPRM to align with the preference distribution. Finally, the expected reward is
utilized to fine-tune an LLM policy to generate responses favoured by the
population. Our experiments show that DPRM significantly enhances the alignment
of LLMs with population preference, yielding more accurate, unbiased, and
contextually appropriate responses.
- Abstract(参考訳): 深層強化学習は、大規模言語モデル(LLM)と人間の好みの整合に広く用いられている。
しかし、従来の報酬モデリングは主に個人の選択したコホートによって提供される人間のアノテーションに依存している。
このような依存は意図せず、これらの注釈者の傾斜を反映して歪んだモデルをもたらす可能性があるため、より広い人口の期待を適切に表現できない。
本稿では,大規模言語モデルと多様な人間の選好のセットを連携させる,単純かつ効果的なフレームワークである分散選好報酬モデル(dprm)を提案する。
この目的のために,選好傾向の変動に動的に適応可能なベータ分布によって選好を特徴付ける。
その上で, DPRMを校正し, 選好分布に適合させる最適輸送に基づく損失を設計する。
最後に, LLM ポリシーを微調整し, 住民に好まれる応答を生成するために, 期待される報酬を利用する。
実験の結果,DPRM は LLM と人口嗜好の整合性を著しく向上させ,より正確で偏りがなく,文脈的に適切な応答をもたらすことが示された。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Principled RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [23.337350061258903]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Soft Preference Optimization: Aligning Language Models to Expert Distributions [40.84391304598521]
SPOは、Large Language Models (LLMs)のような生成モデルと人間の好みを整合させる手法である。
SPOは、選好損失をモデル全体の出力分布全体にわたる正規化項と統合する。
本稿では,SPOの方法論,理論的基礎,および単純さ,計算効率,アライメント精度における比較優位性について紹介する。
論文 参考訳(メタデータ) (2024-04-30T19:48:55Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Generalizing Reward Modeling for Out-of-Distribution Preference Learning [3.9160947065896803]
大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。
人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。
本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
論文 参考訳(メタデータ) (2024-02-22T18:20:33Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Compositional preference models for aligning LMs [15.036426712762147]
構成的選好モデル(CPM)は、一つのグローバルな選好評価をいくつかの解釈可能な特徴に分解するフレームワークである。
CPMは、選好データのどの特性を使って選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると考えられる特徴に基づいて構築することができる。
論文 参考訳(メタデータ) (2023-10-17T01:31:59Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct
Preference Optimization [78.50294936259026]
我々は、最小限のオーバーヘッドで複数のアライメント目標に対して、MODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは言語モデリングを直接報酬モデリングに折り畳み、全ての目的を特定の重み付けと組み合わせた暗黙的な集団報酬モデル(cRM)としてLMを訓練する。
理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定で計算的に効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。