Fugu-MT 論文翻訳(概要): Plug-and-Play Training Framework for Preference Optimization

論文の概要: Plug-and-Play Training Framework for Preference Optimization

arxiv url: http://arxiv.org/abs/2412.20996v1
Date: Mon, 30 Dec 2024 15:01:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.797788
Title: Plug-and-Play Training Framework for Preference Optimization
Title（参考訳）: 選好最適化のためのPlug-and-Playトレーニングフレームワーク
Authors: Jingyuan Ma, Rui Li, Zheng Li, Lei Sha, Zhifang Sui,
Abstract要約: 大規模言語モデル(LLM)のための新しいトレーニングフレームワークを提案する。このフレームワークは複数のサンプリングを用いて出力分布を分析し、異なる重みをサンプルに割り当て、これらの重みを優先最適化プロセスに組み込む。実験により,本フレームワークは様々な選好最適化手法とシームレスに統合され,数学的推論タスクにおける一貫した改善が達成された。
参考スコア（独自算出の注目度）: 25.53286104242179
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, preference optimization methods such as DPO have significantly enhanced large language models (LLMs) in wide tasks including dialogue and question-answering. However, current methods fail to account for the varying difficulty levels of training samples during preference optimization, leading to mediocre performance in tasks with high accuracy requirements, particularly in mathematical reasoning. To address this limitation, we propose a novel training framework, which employs multiple sampling to analyze output distributions, assign different weights to samples, and incorporate these weights into the preference optimization process. This plug-and-play approach enables LLMs to prioritize challenging examples during training, improving learning efficiency. Experimental results demonstrate that our framework integrates seamlessly with various preference optimization methods and achieves consistent improvements in mathematical reasoning tasks.
Abstract（参考訳）: 近年,DPOなどの嗜好最適化手法は,対話や質問応答など幅広いタスクにおいて,大規模言語モデル(LLM)を大幅に強化している。しかし、現在の手法では、選好最適化中のトレーニングサンプルの様々な難易度を考慮できないため、特に数学的推論において、高い精度の要求のあるタスクにおいて、中途半端なパフォーマンスをもたらす。この制限に対処するために、複数のサンプリングを用いて出力分布を分析し、異なる重みをサンプルに割り当て、これらの重みを優先最適化プロセスに組み込む新しいトレーニングフレームワークを提案する。このプラグイン・アンド・プレイアプローチにより、LLMはトレーニング中に困難な例を優先し、学習効率を向上させることができる。実験により,本フレームワークは様々な選好最適化手法とシームレスに統合され,数学的推論タスクにおける一貫した改善が達成された。

関連論文リスト

Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
Adaptive Sample Scheduling for Direct Preference Optimization [37.75208455935495]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
論文参考訳（メタデータ） (2025-06-08T10:26:09Z)
Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。 LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。既存のアプローチ、例えば、コンテキスト内学習や。 PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文参考訳（メタデータ） (2025-05-25T11:54:23Z)
Multi-Response Preference Optimization with Augmented Ranking Dataset [2.8973004951877357]
優先度最適化は、大規模言語モデルの性能向上に重要な役割を果たしている。提案手法は,拡張された優先度最適化データセットに対する新しいアプローチである。また,マルチレスポンスに基づく参照最適化学習手法を提案する。
論文参考訳（メタデータ） (2024-12-10T05:45:36Z)
Adaptive Optimization for Enhanced Efficiency in Large-Scale Language Model Training [3.668740611399284]
大規模言語モデル (LLM) は様々なタスクにおいて顕著な成果を上げている。本稿では適応最適化アルゴリズムに基づく改良手法を提案する。
論文参考訳（メタデータ） (2024-12-06T02:17:30Z)
Evolutionary Pre-Prompt Optimization for Mathematical Reasoning [45.461506988071534]
本稿では,実効的なチェーン・オブ・フォー・プレプロンプトの設計におけるサンプル選択の最適化について検討する。アルゴリズムの選択は、通常、進化的計算のような比較に基づく手法に有利であり、有効性と実現可能性を大幅に向上させることを示している。
論文参考訳（メタデータ） (2024-12-05T16:12:06Z)
AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文参考訳（メタデータ） (2024-09-13T14:03:49Z)
Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-07T19:52:14Z)
Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文参考訳（メタデータ） (2024-08-14T11:19:28Z)
LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文参考訳（メタデータ） (2024-05-30T06:24:14Z)
Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-04T01:47:37Z)
Consolidated learning -- a domain-specific model-free optimization strategy with examples for XGBoost and MIMIC-IV [4.370097023410272]
本稿では,統合学習と呼ばれるチューニング問題の新たな定式化を提案する。このような設定では、単一のタスクをチューニングするよりも、全体の最適化時間に関心があります。我々は,XGBoostアルゴリズムの実証研究とMIMIC-IV医療データベースから抽出した予測タスクの収集を通じて,このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-01-27T21:38:53Z)
Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文参考訳（メタデータ） (2020-08-02T02:56:30Z)
Automatically Learning Compact Quality-aware Surrogates for Optimization Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文参考訳（メタデータ） (2020-06-18T19:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。