論文の概要: Learning Loss Landscapes in Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.06568v1
- Date: Sun, 10 Nov 2024 19:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:13:00.765398
- Title: Learning Loss Landscapes in Preference Optimization
- Title(参考訳): 選好最適化におけるランドスケープの学習
- Authors: Carlo Alfano, Silvia Sapora, Jakob Nicolaus Foerster, Patrick Rebeschini, Yee Whye Teh,
- Abstract要約: 本稿では,選好データセットの特定の特性,例えば混合品質データやノイズデータなどの特性が,選好最適化(PO)アルゴリズムの性能にどのように影響するかを実証研究する。
MuJoCo環境で実施した我々の実験は、最先端のPOメソッドがパフォーマンスの大幅な低下を経験するいくつかのシナリオを明らかにした。
この枠組みでは,問題のあるシナリオを扱える新たな損失関数を発見するために,進化的戦略を採用する。
- 参考スコア(独自算出の注目度): 39.15940594751445
- License:
- Abstract: We present an empirical study investigating how specific properties of preference datasets, such as mixed-quality or noisy data, affect the performance of Preference Optimization (PO) algorithms. Our experiments, conducted in MuJoCo environments, reveal several scenarios where state-of-the-art PO methods experience significant drops in performance. To address this issue, we introduce a novel PO framework based on mirror descent, which can recover existing methods like Direct Preference Optimization (DPO) and Odds-Ratio Preference Optimization (ORPO) for specific choices of the mirror map. Within this framework, we employ evolutionary strategies to discover new loss functions capable of handling the identified problematic scenarios. These new loss functions lead to significant performance improvements over DPO and ORPO across several tasks. Additionally, we demonstrate the generalization capability of our approach by applying the discovered loss functions to fine-tuning large language models using mixed-quality data, where they outperform ORPO.
- Abstract(参考訳): 本稿では,選好データセットの特定の特性,例えば混合品質データやノイズデータなどの特性が,選好最適化(PO)アルゴリズムの性能にどのように影響するかを実証研究する。
MuJoCo環境で実施した我々の実験は、最先端のPOメソッドがパフォーマンスの大幅な低下を経験するいくつかのシナリオを明らかにした。
そこで本研究では,ミラーマップの特定の選択に対して,DPO(Direct Preference Optimization)やOdds-Ratio Preference Optimization(Odds-Ratio Preference Optimization)といった既存の手法を復元する,ミラー降下に基づく新しいPOフレームワークを提案する。
この枠組みでは,問題のあるシナリオを扱える新たな損失関数を発見するために,進化的戦略を採用する。
これらの新たな損失関数は、いくつかのタスクでDPOやORPOよりも大幅にパフォーマンスが向上する。
さらに,得られた損失関数を混合品質データを用いて微調整した大言語モデルに適用することにより,提案手法の一般化能力を示す。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Explainable Landscape-Aware Optimization Performance Prediction [0.0]
ランドスケープを考慮した回帰モデルについて検討する。
各景観特徴の最適化アルゴリズム性能予測への寄与を,グローバルおよびローカルレベルで推定する。
その結果、異なる問題インスタンスに対して異なる機能セットが重要であるという概念の証明が得られた。
論文 参考訳(メタデータ) (2021-10-22T07:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。