論文の概要: Learning Loss Landscapes in Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.06568v1
- Date: Sun, 10 Nov 2024 19:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:13:00.765398
- Title: Learning Loss Landscapes in Preference Optimization
- Title(参考訳): 選好最適化におけるランドスケープの学習
- Authors: Carlo Alfano, Silvia Sapora, Jakob Nicolaus Foerster, Patrick Rebeschini, Yee Whye Teh,
- Abstract要約: 本稿では,選好データセットの特定の特性,例えば混合品質データやノイズデータなどの特性が,選好最適化(PO)アルゴリズムの性能にどのように影響するかを実証研究する。
MuJoCo環境で実施した我々の実験は、最先端のPOメソッドがパフォーマンスの大幅な低下を経験するいくつかのシナリオを明らかにした。
この枠組みでは,問題のあるシナリオを扱える新たな損失関数を発見するために,進化的戦略を採用する。
- 参考スコア(独自算出の注目度): 39.15940594751445
- License:
- Abstract: We present an empirical study investigating how specific properties of preference datasets, such as mixed-quality or noisy data, affect the performance of Preference Optimization (PO) algorithms. Our experiments, conducted in MuJoCo environments, reveal several scenarios where state-of-the-art PO methods experience significant drops in performance. To address this issue, we introduce a novel PO framework based on mirror descent, which can recover existing methods like Direct Preference Optimization (DPO) and Odds-Ratio Preference Optimization (ORPO) for specific choices of the mirror map. Within this framework, we employ evolutionary strategies to discover new loss functions capable of handling the identified problematic scenarios. These new loss functions lead to significant performance improvements over DPO and ORPO across several tasks. Additionally, we demonstrate the generalization capability of our approach by applying the discovered loss functions to fine-tuning large language models using mixed-quality data, where they outperform ORPO.
- Abstract(参考訳): 本稿では,選好データセットの特定の特性,例えば混合品質データやノイズデータなどの特性が,選好最適化(PO)アルゴリズムの性能にどのように影響するかを実証研究する。
MuJoCo環境で実施した我々の実験は、最先端のPOメソッドがパフォーマンスの大幅な低下を経験するいくつかのシナリオを明らかにした。
そこで本研究では,ミラーマップの特定の選択に対して,DPO(Direct Preference Optimization)やOdds-Ratio Preference Optimization(Odds-Ratio Preference Optimization)といった既存の手法を復元する,ミラー降下に基づく新しいPOフレームワークを提案する。
この枠組みでは,問題のあるシナリオを扱える新たな損失関数を発見するために,進化的戦略を採用する。
これらの新たな損失関数は、いくつかのタスクでDPOやORPOよりも大幅にパフォーマンスが向上する。
さらに,得られた損失関数を混合品質データを用いて微調整した大言語モデルに適用することにより,提案手法の一般化能力を示す。
関連論文リスト
- EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。
我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。
我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文 参考訳(メタデータ) (2024-02-28T15:02:17Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Optimistic Optimisation of Composite Objective with Exponentiated Update [2.1700203922407493]
このアルゴリズムは指数勾配と$p$-normアルゴリズムの組み合わせと解釈できる。
彼らはシーケンス依存の後悔の上界を達成し、スパース目標決定変数の最もよく知られた境界と一致する。
論文 参考訳(メタデータ) (2022-08-08T11:29:55Z) - Meta Learning Black-Box Population-Based Optimizers [0.0]
人口ベースのブラックボックス一般化を推論するメタラーニングの利用を提案する。
メタロス関数は,学習アルゴリズムが検索動作を変更することを促進し,新たなコンテキストに容易に適合できることを示す。
論文 参考訳(メタデータ) (2021-03-05T08:13:25Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。