論文の概要: Diverse Preference Optimization
- arxiv url: http://arxiv.org/abs/2501.18101v1
- Date: Thu, 30 Jan 2025 02:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:14.375604
- Title: Diverse Preference Optimization
- Title(参考訳): ディバース推論最適化
- Authors: Jack Lanchantin, Angelica Chen, Shehzaad Dhuliawala, Ping Yu, Jason Weston, Sainbayar Sukhbaatar, Ilia Kulikov,
- Abstract要約: 言語モデルのポストトレーニングは、出力確率分布を鋭くし、生成された応答の多様性を減らす傾向にある。
これは、様々な応答が望まれる創造的な生成タスクにとって特に問題である。
本稿では,従来のパイプラインよりもはるかに多様な応答を生成するオンライン最適化手法であるDiverse Preference Optimization (DivPO)を紹介する。
- 参考スコア(独自算出の注目度): 44.59812261167362
- License:
- Abstract: Post-training of language models, either through reinforcement learning, preference optimization or supervised finetuning, tends to sharpen the output probability distribution and reduce the diversity of generated responses. This is particularly a problem for creative generative tasks where varied responses are desired. %This impacts the ability to generate high quality synthetic data which is becoming a vital component of model training. In this work we introduce Diverse Preference Optimization (DivPO), an online optimization method which learns to generate much more diverse responses than standard pipelines, while maintaining the quality of the generations. In DivPO, preference pairs are selected by first considering a pool of responses, and a measure of diversity among them, and selecting chosen examples as being more rare but high quality, while rejected examples are more common, but low quality. DivPO results in generating 45.6% more diverse persona attributes, and an 74.6% increase in story diversity, while maintaining similar win rates as standard baselines.
- Abstract(参考訳): 言語モデルのポストトレーニングは、強化学習、選好最適化、または教師付き微調整を通じて、出力確率分布を鋭くし、生成された応答の多様性を減らす傾向にある。
これは、様々な応答が望まれる創造的な生成タスクにとって特に問題である。
% モデルトレーニングにおいて重要な要素となっている高品質な合成データを生成する能力に影響を及ぼす。
本稿では,従来のパイプラインよりもはるかに多様な応答を生成できるオンライン最適化手法であるDiverse Preference Optimization (DivPO)を紹介する。
DivPOでは、まず応答のプールと多様性の尺度を考慮し、選択された例をよりレアだが高品質として選別するが、拒否された例はより一般的であるが、品質は低い。
DivPOは45.6%のパーソナ属性を生成し、ストーリーの多様性は74.6%増加し、標準ベースラインと同じような勝利率を維持している。
関連論文リスト
- Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - VPO: Leveraging the Number of Votes in Preference Optimization [5.200545764106177]
本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。
我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-30T10:39:34Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。
OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning [81.69044784288005]
反復的な選好学習には、オンラインの注釈付き選好ラベルが必要である。
コスト効率のよいアノテーションに対する応答対を選択するための戦略について検討する。
論文 参考訳(メタデータ) (2024-06-25T06:49:16Z) - Towards Multimodal Response Generation with Exemplar Augmentation and
Curriculum Optimization [73.45742420178196]
本稿では,高度化とカリキュラム最適化を併用した,新しいマルチモーダル応答生成フレームワークを提案する。
我々のモデルは多様性と妥当性の点で強いベースラインに比べて大幅に改善されている。
論文 参考訳(メタデータ) (2020-04-26T16:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。