論文の概要: Compositional preference models for aligning LMs
- arxiv url: http://arxiv.org/abs/2310.13011v1
- Date: Tue, 17 Oct 2023 01:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-29 16:11:25.033876
- Title: Compositional preference models for aligning LMs
- Title(参考訳): lms調整のための構成選好モデル
- Authors: Dongyoung Go, Tomasz Korbak, Germ\'an Kruszewski, Jos Rozen, Marc
Dymetman
- Abstract要約: 構成的選好モデル(CPM)は、一つのグローバルな選好評価をいくつかの解釈可能な特徴に分解するフレームワークである。
CPMは、選好データのどの特性を使って選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると考えられる特徴に基づいて構築することができる。
- 参考スコア(独自算出の注目度): 11.458448099144762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models (LMs) become more capable, it is increasingly important to
align them with human preferences. However, the dominant paradigm for training
Preference Models (PMs) for that purpose suffers from fundamental limitations,
such as lack of transparency and scalability, along with susceptibility to
overfitting the preference dataset. We propose Compositional Preference Models
(CPMs), a novel PM framework that decomposes one global preference assessment
into several interpretable features, obtains scalar scores for these features
from a prompted LM, and aggregates these scores using a logistic regression
classifier. CPMs allow to control which properties of the preference data are
used to train the preference model and to build it based on features that are
believed to underlie the human preference judgment. Our experiments show that
CPMs not only improve generalization and are more robust to overoptimization
than standard PMs, but also that best-of-n samples obtained using CPMs tend to
be preferred over samples obtained using conventional PMs. Overall, our
approach demonstrates the benefits of endowing PMs with priors about which
features determine human preferences while relying on LM capabilities to
extract those features in a scalable and robust way.
- Abstract(参考訳): 言語モデル(LM)がより有能になるにつれて、それらを人間の好みに合わせることがますます重要である。
しかしながら、その目的のために優先度モデル(PM)をトレーニングする主要なパラダイムは、透明性の欠如やスケーラビリティの欠如など、基本的な制限と、優先データセットの過度な適合性に悩まされている。
本稿では,1つのグローバルな選好評価をいくつかの解釈可能な特徴に分解する新しいPMフレームワークであるCPMを提案し,これらの特徴のスカラースコアを誘導されたLMから取得し,ロジスティック回帰分類器を用いてこれらのスコアを集約する。
CPMは、選好データのどの特性を使って選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると考えられる特徴に基づいて構築することができる。
実験の結果,cpmは一般化を改善できるだけでなく,標準pmsよりも過最適化に頑健なだけでなく,従来のpmsより最良なnサンプルが好まれる傾向にあった。
全体として,提案手法は,ヒトの嗜好を決定する機能と,スケーラブルでロバストな方法でこれらの機能を抽出するLM機能に頼って,PMを先行する利点を示す。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Aligning Crowd Feedback via Distributional Preference Reward Modeling [30.468757225982557]
本研究では,大きな言語モデルと人間の好みの多様なセットを一致させるために,DPRM(Distributal Preference Reward Model)を導入する。
実験の結果,DPRM は LLM と人口嗜好の整合性を著しく向上させ,より正確で偏りがなく,文脈的に適切な応答をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-15T07:29:43Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本研究では,多彩な嗜好が報酬モデルに及ぼす影響について検討する。
その結果,様々な選好データが報酬モデルのキャリブレーション性能に悪影響を及ぼすことがわかった。
本稿では,RMの校正性能を高めるための多目的リワード学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - SimPO: Simultaneous Prediction and Optimization [3.181417685380586]
本稿では,同時予測最適化(SimPO)フレームワークの定式化を提案する。
このフレームワークでは,決定駆動型予測MLモデルと最適化対象関数の重み付き損失を併用する。
論文 参考訳(メタデータ) (2022-03-31T20:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。