論文の概要: Selective Preference Optimization via Token-Level Reward Function Estimation
- arxiv url: http://arxiv.org/abs/2408.13518v1
- Date: Sat, 24 Aug 2024 08:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 19:09:24.511533
- Title: Selective Preference Optimization via Token-Level Reward Function Estimation
- Title(参考訳): Token-Level Reward関数推定による選択的選好最適化
- Authors: Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Erxue Min, Sophia Ananiadou,
- Abstract要約: 本稿では,鍵トークン選択を効率よく行う新しい選択的アライメント戦略である選択的選好最適化(SePO)を提案する。
SePOは、応答レベルのアノテーションを備えた既存のアライメントデータセットに適用します。
実験の結果、SePOはターゲットデータセット上の30%のキートークンだけを最適化することで、競合するベースラインメソッドを著しく上回ります。
- 参考スコア(独自算出の注目度): 34.575466253492436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language model alignment leverage token-level supervisions to perform fine-grained preference optimization. However, existing token-level alignment methods either optimize on all available tokens, which can be noisy and inefficient, or perform selective training with complex and expensive key token selection strategies. In this work, we propose Selective Preference Optimization (SePO), a novel selective alignment strategy that centers on efficient key token selection. SePO proposes the first token selection method based on Direct Preference Optimization (DPO), which trains an oracle model to estimate a token-level reward function on the target data. This method applies to any existing alignment datasets with response-level annotations and enables cost-efficient token selection with small-scale oracle models and training data. The estimated reward function is then utilized to score all tokens within the target dataset, where only the key tokens are selected to supervise the target policy model with a reference model-free contrastive objective function. Extensive experiments on three public evaluation benchmarks show that SePO significantly outperforms competitive baseline methods by only optimizing 30% key tokens on the target dataset. SePO applications on weak-to-strong generalization show that weak oracle models effectively supervise strong policy models with up to 16.8x more parameters. SePO also effectively selects key tokens from out-of-distribution data to enhance strong policy models and alleviate the over-optimization problem.
- Abstract(参考訳): 大規模言語モデルのアライメントの最近の進歩は、トークンレベルの監督を利用して、きめ細かい好みの最適化を行う。
しかし、既存のトークンレベルのアライメントメソッドは、ノイズが多く非効率なすべてのトークンを最適化するか、複雑で高価なキー選択戦略で選択的なトレーニングを実行する。
本研究では,鍵トークン選択を効率よく行う新しい選択的アライメント戦略であるセレクティブ・パラメータ最適化(SePO)を提案する。
SePOは直接選好最適化(DPO)に基づく最初のトークン選択法を提案し、ターゲットデータ上でトークンレベルの報酬関数を推定するためにオラクルモデルを訓練する。
この方法は、応答レベルのアノテーションを持つ既存のアライメントデータセットに適用され、小規模のオラクルモデルとトレーニングデータによるコスト効率の高いトークン選択を可能にする。
次に、推定された報酬関数を使用して、ターゲットデータセット内のすべてのトークンをスコアし、キートークンのみを選択して、参照モデルなしのコントラスト目的関数でターゲットポリシーモデルを監督する。
3つの公開評価ベンチマークの大規模な実験により、SEPOはターゲットデータセット上の30%のキートークンを最適化するだけで、競合するベースラインメソッドを著しく上回ります。
弱強一般化に対するSePOの応用は、弱いオラクルモデルは最大16.8倍のパラメータを持つ強いポリシーモデルを効果的に監督することを示している。
SePOはまた、配布外データからキートークンを効果的に選択し、強力なポリシーモデルを強化し、過度な最適化問題を緩和する。
関連論文リスト
- $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - S$^3$VAADA: Submodular Subset Selection for Virtual Adversarial Active
Domain Adaptation [49.01925978752677]
現実のシナリオでは、少数のターゲットデータに対してラベルを取得することは可能かもしれません。
我々は,S$3$VAADAを提案する。これは,ラベルに対する最大情報サブセットを選択するための,新しいサブモジュール基準を導入し,また,クラスタベースのDA手順を強化する。
我々のアプローチは、ドメインシフトの度合いの異なるデータセットにおいて、競合する最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-09-18T10:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。