論文の概要: On Extending Direct Preference Optimization to Accommodate Ties
- arxiv url: http://arxiv.org/abs/2409.17431v1
- Date: Wed, 25 Sep 2024 23:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:50:22.758175
- Title: On Extending Direct Preference Optimization to Accommodate Ties
- Title(参考訳): アコモディエイト・ティーへの直接選好最適化の拡充について
- Authors: Jinghong Chen, Guangyu Yang, Weizhe Lin, Jingbiao Mei, Bill Byrne,
- Abstract要約: DPO のBradley-Terry モデルを2つのよく知られたモデリング拡張に置き換える。
ニューラルネットワーク翻訳と要約の実験では、タスクパフォーマンスの劣化を伴わずに、これらのDPO変種のためのデータセットに明示的にラベル付けされたネクタイを追加できることが示されている。
- 参考スコア(独自算出の注目度): 14.389486267051327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We derive and investigate two DPO variants that explicitly model the possibility of declaring a tie in pair-wise comparisons. We replace the Bradley-Terry model in DPO with two well-known modeling extensions, by Rao and Kupper and by Davidson, that assign probability to ties as alternatives to clear preferences. Our experiments in neural machine translation and summarization show that explicitly labeled ties can be added to the datasets for these DPO variants without the degradation in task performance that is observed when the same tied pairs are presented to DPO. We find empirically that the inclusion of ties leads to stronger regularization with respect to the reference policy as measured by KL divergence, and we see this even for DPO in its original form. These findings motivate and enable the inclusion of tied pairs in preference optimization as opposed to simply discarding them.
- Abstract(参考訳): 2つのDPO変種を導出し、ペア比較でネクタイを宣言する可能性を明確にモデル化する。
DPO のBradley-Terry モデルを、Rao と Kupper と Davidson の2つのよく知られたモデリング拡張に置き換える。
ニューラルネットワークの翻訳および要約実験により、DPOに同一の連結ペアが提示されたときに観測されるタスク性能の劣化を伴わずに、これらのDPO変種に対するデータセットに明示的にラベル付き結合を付加できることが示されている。
我々は、結合の包含が、KLの発散によって測定される基準ポリシーに関してより強い正則化をもたらすことを実証的に見出した。
これらの知見は, 単に廃棄するのではなく, 優先最適化に連結ペアを組み込むことを動機付け, 可能とした。
関連論文リスト
- Federated Fine-Tuning of Large Language Models: Kahneman-Tversky vs. Direct Preference Optimization [49.88778604259453]
我々は,大言語モデル (LLM) をフェデレート学習 (FL) 設定で微調整する方法として,KTO (Kahneman-Tversky Optimization) を評価した。
オリジナルの(KTOO)と再配布された(KTOR)構成の両方において、KTOはすべてのベンチマークで一貫してDPOを上回っている。
これらの知見は、KTOをFLの堅牢でスケーラブルな微調整方法として確立し、プライバシー保護、分散化、異種環境への採用を動機付けている。
論文 参考訳(メタデータ) (2025-02-20T01:44:21Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both [6.102274021710727]
本稿では, DRDO (Direct Reward Distillation and Policy-Optimization) を紹介する。
Ultrafeedback と TL;DR データセットの結果、DRDO が学習したポリシーが、期待される報酬の点で DPO や e-DPO などの手法を超越していることが示されている。
論文 参考訳(メタデータ) (2024-10-11T02:19:11Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。
この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文 参考訳(メタデータ) (2024-07-18T17:08:10Z) - Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。
有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。
また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文 参考訳(メタデータ) (2024-06-16T14:24:30Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。