論文の概要: VPO: Leveraging the Number of Votes in Preference Optimization
- arxiv url: http://arxiv.org/abs/2410.22891v1
- Date: Wed, 30 Oct 2024 10:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:15.918895
- Title: VPO: Leveraging the Number of Votes in Preference Optimization
- Title(参考訳): VPO: 優先度最適化における投票数を活用する
- Authors: Jae Hyeon Cho, Minkyung Park, Byung-Jun Lee,
- Abstract要約: 本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。
我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
- 参考スコア(独自算出の注目度): 5.200545764106177
- License:
- Abstract: Direct Preference Optimization (DPO) trains a language model using human preference data, bypassing the explicit reward modeling phase of Reinforcement Learning from Human Feedback (RLHF). By iterating over sentence pairs in a preference dataset, DPO enhances generation quality by increasing the likelihood of producing preferred sentences over less favored ones. Preference datasets are typically created by selecting preferred sentences through a voting process involving multiple individuals, as opinions can vary due to the subjective nature of human preferences. While the number of votes offers insight into whether a sentence pair is clearly preferable or controversial, current methods do not fully leverage this information. In this paper, we introduce a technique that leverages user voting data to better align with diverse subjective preferences. We employ the Bayesian Minimum Mean Square Error (Bayesian MMSE) estimator to model the probability that one generation is preferable to another. Using this estimated probability as a target, we develop the Vote-based Preference Optimization (VPO) framework, which incorporates the number of votes on both sides to distinguish between controversial and obvious generation pairs. We show that previous algorithms, such as DPO and Identity Preference Optimization (IPO), can be extended using the proposed framework, termed VDPO and VIPO. Our experiments demonstrate that these proposed algorithms outperform various existing methods, including their base algorithms.
- Abstract(参考訳): 直接選好最適化(DPO)は、ヒューマンフィードバック(RLHF)からの強化学習(Reinforcement Learning from Human Feedback)の明確な報奨モデルフェーズをバイパスして、人間の嗜好データを用いて言語モデルを訓練する。
選好データセットにおける文対を反復することにより、DPOは、あまり好まれない文よりも好まれない文を生成する可能性を高めることにより、生成品質を向上させる。
選好データセットは典型的には、複数の個人を含む投票プロセスを通じて、人間の選好の主観的な性質によって意見が変わるため、好まれる文を選択することによって作成される。
投票数には、文対が明らかに好ましくないか議論の余地があるが、現在の方法は、この情報を十分に活用していない。
本稿では,ユーザの投票データを活用して,多様な主観的嗜好に適合させる手法を提案する。
ベイジアン最小平均平方誤差推定器(ベイジアンMMSE)を用いて、ある世代が別の世代よりも好ましい確率をモデル化する。
この推定確率をターゲットとして,両陣営の投票数を組み込んだVote-based Preference Optimization (VPO) フレームワークを開発し,議論を呼んでいる世代対と明らかな世代対を区別する。
本稿では,従来のアルゴリズムであるDPOとIdentity Preference Optimization(IPO)を,VDPOとVIPOというフレームワークを用いて拡張可能であることを示す。
本実験は,提案アルゴリズムが基本アルゴリズムを含む既存手法よりも優れていることを示す。
関連論文リスト
- ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees [14.84379332031731]
本稿では、選好木からペア化された選好応答をサンプリングしないツリー選好最適化(TPO)を導入する。
TPOは、言語モデルのアライメントを、優先順位リストランキング問題として定式化し、ポリシーは、ランク付けされた優先順位リストからより効果的に学習することができる。
論文 参考訳(メタデータ) (2024-10-10T22:22:05Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。
OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Preference Optimization as Probabilistic Inference [21.95277469346728]
本稿では,好ましくない例や好ましくない例を活用できる手法を提案する。
この柔軟性により、生成言語モデルをトレーニングするなど、さまざまな形式のフィードバックとモデルでシナリオに適用することが可能になります。
論文 参考訳(メタデータ) (2024-10-05T14:04:03Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity [16.91835461818937]
本稿では,生成モデルと人間の嗜好を一致させる新しい手法を提案する。
そこで我々はDPOに対する期待最大化適応を提案し、アノテータの潜在選好型に基づくモデルの混合を生成する。
我々のアルゴリズムはDPOの単純さを生かし、多様な好みを調節する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。