論文の概要: Diverse Preference Optimization
- arxiv url: http://arxiv.org/abs/2501.18101v3
- Date: Mon, 10 Feb 2025 18:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 16:44:24.803074
- Title: Diverse Preference Optimization
- Title(参考訳): ディバース推論最適化
- Authors: Jack Lanchantin, Angelica Chen, Shehzaad Dhuliawala, Ping Yu, Jason Weston, Sainbayar Sukhbaatar, Ilia Kulikov,
- Abstract要約: DivPO(Diverse Preference Optimization)は,従来のパイプラインよりもはるかに多様な応答を生成する最適化手法である。
DivPOでは、まず、反応のプールと、それら間の多様性の尺度を考慮し、選択された例を、よりレアだが高品質なものとして選択することで、好みのペアを選択する。
DivPOは45.6%のパーソナ属性を生成し、ストーリーの多様性は74.6%増加し、標準ベースラインと同じような勝利率を維持している。
- 参考スコア(独自算出の注目度): 44.59812261167362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training of language models, either through reinforcement learning, preference optimization or supervised finetuning, tends to sharpen the output probability distribution and reduce the diversity of generated responses. This is particularly a problem for creative generative tasks where varied responses are desired. In this work we introduce Diverse Preference Optimization (DivPO), an optimization method which learns to generate much more diverse responses than standard pipelines, while maintaining the quality of the generations. In DivPO, preference pairs are selected by first considering a pool of responses, and a measure of diversity among them, and selecting chosen examples as being more rare but high quality, while rejected examples are more common, but low quality. DivPO results in generating 45.6% more diverse persona attributes, and an 74.6% increase in story diversity, while maintaining similar win rates as standard baselines.
- Abstract(参考訳): 言語モデルのポストトレーニングは、強化学習、選好最適化、または教師付き微調整を通じて、出力確率分布を鋭くし、生成された応答の多様性を減らす傾向にある。
これは、様々な応答が望まれる創造的な生成タスクにとって特に問題である。
本稿では,従来のパイプラインよりもはるかに多様な応答を生成できる最適化手法であるDiverse Preference Optimization (DivPO)を紹介する。
DivPOでは、まず応答のプールと多様性の尺度を考慮し、選択された例をよりレアだが高品質として選別するが、拒否された例はより一般的であるが、品質は低い。
DivPOは45.6%のパーソナ属性を生成し、ストーリーの多様性は74.6%増加し、標準ベースラインと同じような勝利率を維持している。
関連論文リスト
- Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Modifying Large Language Model Post-Training for Diverse Creative Writing [12.872333448726595]
創造的な文章生成において、出力の多様性と品質の両方を促進するためのポストトレーニングアプローチについて検討する。
私たちの中核となる考え方は、希少な高品質なインスタンスからの学習を容易にするためのトレーニング目標の逸脱を含めることです。
8Bパラメータの最良のモデルは、最高の命令チューニングモデルに似た出力品質を持ちながら、人間の作成したデータセットとしてオンパー多様性を達成することができる。
論文 参考訳(メタデータ) (2025-03-21T13:21:45Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - VPO: Leveraging the Number of Votes in Preference Optimization [5.200545764106177]
本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。
我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-30T10:39:34Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。
TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。
実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-31T05:37:01Z) - Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning [81.69044784288005]
反復的な選好学習には、オンラインの注釈付き選好ラベルが必要である。
コスト効率のよいアノテーションに対する応答対を選択するための戦略について検討する。
論文 参考訳(メタデータ) (2024-06-25T06:49:16Z) - A Collection of Quality Diversity Optimization Problems Derived from
Hyperparameter Optimization of Machine Learning Models [0.8029049649310213]
品質多様性最適化(Quality Diversity Optimization)は、与えられた問題に対する多様な高パフォーマンスなソリューションを生成する。
我々のベンチマーク問題には、解釈可能性やモデルの資源利用など、新しい特徴関数が関係している。
高速で効率的なベンチマークを可能にするため、最近提案されたオープンソースのベンチマークスイートであるYAHPO Gymをベースとしています。
論文 参考訳(メタデータ) (2022-04-28T14:29:20Z) - SelectAugment: Hierarchical Deterministic Sample Selection for Data
Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。
具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。
これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文 参考訳(メタデータ) (2021-12-06T08:38:38Z) - Towards Multimodal Response Generation with Exemplar Augmentation and
Curriculum Optimization [73.45742420178196]
本稿では,高度化とカリキュラム最適化を併用した,新しいマルチモーダル応答生成フレームワークを提案する。
我々のモデルは多様性と妥当性の点で強いベースラインに比べて大幅に改善されている。
論文 参考訳(メタデータ) (2020-04-26T16:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。