論文の概要: Plug-and-Play Training Framework for Preference Optimization
- arxiv url: http://arxiv.org/abs/2412.20996v1
- Date: Mon, 30 Dec 2024 15:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:01:12.127337
- Title: Plug-and-Play Training Framework for Preference Optimization
- Title(参考訳): 選好最適化のためのPlug-and-Playトレーニングフレームワーク
- Authors: Jingyuan Ma, Rui Li, Zheng Li, Lei Sha, Zhifang Sui,
- Abstract要約: 大規模言語モデル(LLM)のための新しいトレーニングフレームワークを提案する。
このフレームワークは複数のサンプリングを用いて出力分布を分析し、異なる重みをサンプルに割り当て、これらの重みを優先最適化プロセスに組み込む。
実験により,本フレームワークは様々な選好最適化手法とシームレスに統合され,数学的推論タスクにおける一貫した改善が達成された。
- 参考スコア(独自算出の注目度): 25.53286104242179
- License:
- Abstract: Recently, preference optimization methods such as DPO have significantly enhanced large language models (LLMs) in wide tasks including dialogue and question-answering. However, current methods fail to account for the varying difficulty levels of training samples during preference optimization, leading to mediocre performance in tasks with high accuracy requirements, particularly in mathematical reasoning. To address this limitation, we propose a novel training framework, which employs multiple sampling to analyze output distributions, assign different weights to samples, and incorporate these weights into the preference optimization process. This plug-and-play approach enables LLMs to prioritize challenging examples during training, improving learning efficiency. Experimental results demonstrate that our framework integrates seamlessly with various preference optimization methods and achieves consistent improvements in mathematical reasoning tasks.
- Abstract(参考訳): 近年,DPOなどの嗜好最適化手法は,対話や質問応答など幅広いタスクにおいて,大規模言語モデル(LLM)を大幅に強化している。
しかし、現在の手法では、選好最適化中のトレーニングサンプルの様々な難易度を考慮できないため、特に数学的推論において、高い精度の要求のあるタスクにおいて、中途半端なパフォーマンスをもたらす。
この制限に対処するために、複数のサンプリングを用いて出力分布を分析し、異なる重みをサンプルに割り当て、これらの重みを優先最適化プロセスに組み込む新しいトレーニングフレームワークを提案する。
このプラグイン・アンド・プレイアプローチにより、LLMはトレーニング中に困難な例を優先し、学習効率を向上させることができる。
実験により,本フレームワークは様々な選好最適化手法とシームレスに統合され,数学的推論タスクにおける一貫した改善が達成された。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。
我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:03:49Z) - Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-14T11:19:28Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Multi-Objective Hyperparameter Optimization in Machine Learning -- An Overview [10.081056751778712]
本稿では,多目的ハイパーパラメータ最適化の基礎を導入し,応用MLにおけるその有用性を動機づける。
進化的アルゴリズムの領域とベイズ最適化の両方から、既存の最適化戦略を広範囲に調査する。
動作条件,予測時間,スパースネス,フェアネス,解釈可能性,ロバストネスなどの目的を考慮し,複数の特定のMLアプリケーションにおけるMOOの有用性を解説する。
論文 参考訳(メタデータ) (2022-06-15T10:23:19Z) - Teaching Networks to Solve Optimization Problems [13.803078209630444]
反復解法をトレーニング可能なパラメトリック集合関数に置き換えることを提案する。
このようなパラメトリックな(集合)関数を学習することで、様々な古典的最適化問題を解くことができることを示す。
論文 参考訳(メタデータ) (2022-02-08T19:13:13Z) - Consolidated learning -- a domain-specific model-free optimization
strategy with examples for XGBoost and MIMIC-IV [4.370097023410272]
本稿では,統合学習と呼ばれるチューニング問題の新たな定式化を提案する。
このような設定では、単一のタスクをチューニングするよりも、全体の最適化時間に関心があります。
我々は,XGBoostアルゴリズムの実証研究とMIMIC-IV医療データベースから抽出した予測タスクの収集を通じて,このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-01-27T21:38:53Z) - Careful! Training Relevance is Real [0.7742297876120561]
我々は、トレーニングの妥当性を強制するために設計された制約を提案する。
提案した制約を加えることで,ソリューションの品質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-01-12T11:54:31Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。