論文の概要: Inducing Robustness in a 2 Dimensional Direct Preference Optimization Paradigm
- arxiv url: http://arxiv.org/abs/2505.01706v1
- Date: Sat, 03 May 2025 05:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.237196
- Title: Inducing Robustness in a 2 Dimensional Direct Preference Optimization Paradigm
- Title(参考訳): 2次元直接選好最適化パラダイムにおけるロバスト性の導入
- Authors: Sarvesh Shashidhar, Ritik, Nachiketa Patil, Suraj Racha, Ganesh Ramakrishnan,
- Abstract要約: DPO(Direct PreferenceOptimization)は、大規模言語モデルと人間の嗜好を整合させる強力な手法として登場した。
オープンソースの選好データセットを用いたDPOの性能について検討する。
2D-DPOアルゴリズムにセグメントレベルスコアノイズロバスト性を組み込む手法を提案する。
- 参考スコア(独自算出の注目度): 16.66633426354087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimisation (DPO) has emerged as a powerful method for aligning Large Language Models (LLMs) with human preferences, offering a stable and efficient alternative to approaches that use Reinforcement learning via Human Feedback. In this work, we investigate the performance of DPO using open-source preference datasets. One of the major drawbacks of DPO is that it doesn't induce granular scoring and treats all the segments of the responses with equal propensity. However, this is not practically true for human preferences since even "good" responses have segments that may not be preferred by the annotator. To resolve this, a 2-dimensional scoring for DPO alignment called 2D-DPO was proposed. We explore the 2D-DPO alignment paradigm and the advantages it provides over the standard DPO by comparing their win rates. It is observed that these methods, even though effective, are not robust to label/score noise. To counter this, we propose an approach of incorporating segment-level score noise robustness to the 2D-DPO algorithm. Along with theoretical backing, we also provide empirical verification in favour of the algorithm and introduce other noise models that can be present.
- Abstract(参考訳): 直接選好最適化(DPO)は、大規模言語モデル(LLM)を人間の嗜好と整合させる強力な方法として登場し、人間のフィードバックを通じて強化学習を使用するアプローチに対して、安定的で効率的な代替手段を提供する。
本研究では,オープンソースの嗜好データセットを用いたDPOの性能について検討する。
DPOの大きな欠点の1つは、粒度のスコアリングを誘導せず、応答のすべてのセグメントを同等の確率で扱うことである。
しかし、「良い」応答でさえアノテータに好まれないセグメントがあるため、これは人間の嗜好には事実上当てはまらない。
これを解決するために、2D-DPOと呼ばれるDPOアライメントのための2次元スコアリングを提案した。
2D-DPOアライメントパラダイムと、それが標準DPOに対してもたらす利点を、勝利率を比較して検討する。
これらの手法は, 有効であっても, ラベル/スコアノイズに対して頑健ではないことが観察された。
これに対応するために,2次元DPOアルゴリズムにセグメントレベルスコアノイズロバスト性を導入する手法を提案する。
理論的裏付けとともに、我々はアルゴリズムに有利な経験的検証を提供し、他のノイズモデルも導入する。
関連論文リスト
- VPO: Leveraging the Number of Votes in Preference Optimization [5.200545764106177]
本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。
我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-30T10:39:34Z) - 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision [28.742104593747033]
我々はDPOの嗜好を2次元(セグメントとアスペクト)に拡張することを提案する。
我々は2D-DPOフレームワークを開発し、その全体的目的をマルチセグメントとマルチアスペクトの目的に分解する。
論文 参考訳(メタデータ) (2024-10-25T17:47:35Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization [45.6430987775264]
本研究は、DPO(Direct Preference Optimization)のためのトレーニングデータセットにおけるノイズの課題に対処する。
ノイズを低品質なデータポイントを含むポイントワイズノイズと、誤ったデータペアアソシエーションを含むペアワイズノイズに分類する。
本稿では、最悪の場合のペアワイズシナリオに対して最適化することで、ペアワイズロバストネスを統合した分散ロバスト化DPOを提案する。
論文 参考訳(メタデータ) (2024-07-10T17:48:25Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。