論文の概要: SP^2DPO: An LLM-assisted Semantic Per-Pair DPO Generalization
- arxiv url: http://arxiv.org/abs/2601.22385v1
- Date: Thu, 29 Jan 2026 22:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.110965
- Title: SP^2DPO: An LLM-assisted Semantic Per-Pair DPO Generalization
- Title(参考訳): SP^2DPO: LLM支援セマンティックパーペアDPO一般化
- Authors: Chaoyue He, Xin Zhou, Di Wang, Hong Xu, Wei Liu, Chunyan Miao,
- Abstract要約: 本研究では,SP2DPO(Semantic Per-Pair DPO)を紹介する。
我々はAlpacaEval 2.0に関する実証研究に焦点を合わせ、生の勝利率と長さ制御の勝利率の両方を報告した。
- 参考スコア(独自算出の注目度): 38.55012111778011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) controls the trade-off between fitting preference labels and staying close to a reference model using a single global temperature beta, implicitly treating all preference pairs as equally informative. Real-world preference corpora are heterogeneous: they mix high-signal, objective failures (for example, safety, factuality, instruction violations) with low-signal or subjective distinctions (for example, style), and also include label noise. We introduce our method, SP2DPO (Semantic Per-Pair DPO), a generalization that replaces the global temperature with an instance-specific schedule beta_i pre-decided offline from structured semantic-gap annotations (category, magnitude, confidence) produced by teacher language models. We instantiate this procedure on the UltraFeedback preference corpus (59,960 pairs), enabling large-scale construction of an auditable beta_i artifact, and incur zero training-time overhead: the inner-loop optimizer remains standard DPO with beta set per pair. We focus our empirical study on AlpacaEval 2.0, reporting both raw win rate and length-controlled win rate. Across four open-weight, instruction-tuned student backbones (4B-8B), SP2DPO is competitive with a tuned global-beta DPO baseline and improves AlpacaEval 2.0 length-controlled win rate on two of four backbones, while avoiding per-model beta sweeps. All code, annotations, and artifacts will be released.
- Abstract(参考訳): 直接選好最適化(DPO)は、適合する選好ラベルと参照モデルとのトレードオフを単一のグローバル温度ベータを使用して制御し、すべての選好ペアを等しく有意義なものとして暗黙的に扱う。
現実世界の嗜好コーパスは異種であり、高信号の客観的な障害(例えば、安全性、事実性、命令違反)と低信号または主観的な区別(例えば、スタイル)を混合し、ラベルノイズも含んでいる。
本研究では,教師言語モデルによって生成される構造化セマンティックギャップアノテーション(カテゴリ,サイズ,信頼度)からオフラインに決定されたインスタンス固有スケジュールβ_iに,グローバル温度を置き換えたSP2DPO(Semantic Per-Pair DPO)を提案する。
この手順をUltraFeedback選好コーパス(59,960ペア)上でインスタンス化し、監査可能なbeta_iアーティファクトを大規模に構築し、トレーニング時間のオーバーヘッドをゼロにする。
我々はAlpacaEval 2.0に関する実証研究に焦点を合わせ、生の勝利率と長さ制御の勝利率の両方を報告した。
SP2DPOは4つのオープンウェイトな学生バックボーン(4B-8B)にまたがって、調整されたグローバルベータDPOベースラインと競合し、4つのバックボーンのうち2つのAlpacaEval 2.0長制御の勝利率を改善し、モデルごとのベータスイープを回避する。
すべてのコード、アノテーション、アーティファクトがリリースされる。
関連論文リスト
- Latent Collective Preference Optimization: A General Framework for Robust LLM Alignment [7.1259212876994695]
雑音データから潜在集団コンセンサスを学習するためにLCPO(Latent Collective Preference Optimization)を導入する。
本実験はLCPOの汎用フレームワークとしての有効性を実証し、4つの最先端アライメントアルゴリズムを一貫して強化した。
Mistral と Llama 3 モデルに適用すると、LCPO を拡張した手法は AlpacaEval 2 と Arena-Hard でかなりの利得を達成し、両方のベンチマークで最大 7.0 % 改善した。
論文 参考訳(メタデータ) (2025-09-29T01:17:49Z) - Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。
直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。
我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。
本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文 参考訳(メタデータ) (2025-06-24T16:47:17Z) - Inducing Robustness in a 2 Dimensional Direct Preference Optimization Paradigm [16.66633426354087]
DPO(Direct PreferenceOptimization)は、大規模言語モデルと人間の嗜好を整合させる強力な手法として登場した。
オープンソースの選好データセットを用いたDPOの性能について検討する。
2D-DPOアルゴリズムにセグメントレベルスコアノイズロバスト性を組み込む手法を提案する。
論文 参考訳(メタデータ) (2025-05-03T05:59:13Z) - Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。
具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:38Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。