論文の概要: Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.16825v1
- Date: Mon, 24 Feb 2025 04:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:19.314730
- Title: Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization
- Title(参考訳): スウィートスポットを見つける:スケーリングの選好最適化のための選好データ構築
- Authors: Yao Xiao, Hai Ye, Linyao Chen, Hwee Tou Ng, Lidong Bing, Xiaoli Li, Roy Ka-wei Lee,
- Abstract要約: 本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。
実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。
サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
- 参考スコア(独自算出の注目度): 66.67988187816185
- License:
- Abstract: Iterative data generation and model retraining are widely used to align large language models (LLMs). It typically involves a policy model to generate on-policy responses and a reward model to guide training data selection. Direct Preference Optimization (DPO) further enhances this process by constructing preference pairs of chosen and rejected responses. In this work, we aim to \emph{scale up} the number of on-policy samples via repeated random sampling to improve alignment performance. Conventional practice selects the sample with the highest reward as chosen and the lowest as rejected for DPO. However, our experiments reveal that this strategy leads to a \emph{decline} in performance as the sample size increases. To address this, we investigate preference data construction through the lens of underlying normal distribution of sample rewards. We categorize the reward space into seven representative points and systematically explore all 21 ($C_7^2$) pairwise combinations. Through evaluations on four models using AlpacaEval 2, we find that selecting the rejected response at reward position $\mu - 2\sigma$ rather than the minimum reward, is crucial for optimal performance. We finally introduce a scalable preference data construction strategy that consistently enhances model performance as the sample scale increases.
- Abstract(参考訳): 反復データ生成とモデル再訓練は、大規模言語モデル(LLM)の整列に広く用いられている。
一般的には、オンライン応答を生成するポリシーモデルと、トレーニングデータ選択をガイドする報酬モデルが関係します。
直接選好最適化(DPO)は、選択された応答と拒否された応答の選好ペアを構築することにより、このプロセスをさらに強化する。
本研究では,アライメント性能を向上させるために,繰り返しランダムサンプリングによるオン・ポリケーション・サンプルの数を<emph{scale up} することを目的とする。
従来の慣行では、最も高い報酬が選択され、最も低い報酬がDPOに対して拒否されるサンプルを選択する。
しかし,本実験の結果,サンプルサイズが大きくなるにつれて,この戦略が性能向上につながることが明らかとなった。
そこで本研究では,サンプル報酬の正規分布のレンズによる嗜好データ構築について検討する。
報酬空間を7つの代表点に分類し、21(C_7^2$)のペアの組合せを体系的に探索する。
AlpacaEval 2を用いた4つのモデルの評価により、最小報酬ではなく、報酬位置$\mu - 2\sigma$で拒否された応答を選択することが最適性能に不可欠であることが判明した。
最終的に、サンプルスケールが大きくなるにつれて、モデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
関連論文リスト
- Preference Optimization via Contrastive Divergence: Your Reward Model is Secretly an NLL Estimator [32.05337749590184]
本稿では,非推奨の完了を効果的にサンプリングするための理論的ガイダンスを提供する新しいPOフレームワークを開発する。
次に、サンプリング戦略としてコントラスト分散(CD)を選択し、新しいMC-POアルゴリズムを提案する。
OnMC-POは既存のSOTAベースラインより優れており、OnMC-POはさらなる改善をもたらす。
論文 参考訳(メタデータ) (2025-02-06T23:45:08Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。
テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - The Crucial Role of Samplers in Online Direct Preference Optimization [36.68862142959827]
我々はDPOの収束率を厳密に解析し、正確な勾配設定の下で異なるサンプリング戦略で解析する。
提案するオンラインサンプリングは$textbflinear$ convergenceを達成する一方、均一サンプリングは$textbflinear$ convergenceを達成する。
例えば、Safe-RLHFデータセットでバニラDPOを74ドル以上上回っている。
論文 参考訳(メタデータ) (2024-09-29T07:53:50Z) - Preference-Guided Reflective Sampling for Aligning Language Models [27.69410513313001]
反復データ生成とモデル再訓練は、大きな言語モデル(LLM)を人間の好みに効果的に合わせることができる。
本研究では,PRS(Preference-Guided Reflective Smpling)を提案する。
ランダムサンプリングとは異なり、PSSはより効率的なサンプリングを可能にするためにツリーベースの生成フレームワークを使用している。
PRSは、反復的なオフラインRLトレーニングに適用した場合、高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-22T07:18:46Z) - SelectAugment: Hierarchical Deterministic Sample Selection for Data
Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。
具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。
これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文 参考訳(メタデータ) (2021-12-06T08:38:38Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。