Fugu-MT 論文翻訳(概要): MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples

論文の概要: MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples

arxiv url: http://arxiv.org/abs/2412.15244v1
Date: Fri, 13 Dec 2024 14:18:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.625976
Title: MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples
Title（参考訳）: MPPO:任意負のサンプルを持つLLMのマルチペアワイズ選好最適化
Authors: Shuo Xie, Fangzhi Zhu, Jiahui Wang, Lulu Wen, Wei Dai, Xiaowei Chen, Junxiong Zhu, Kai Zhou, Bo Zheng,
Abstract要約: 本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。 Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
参考スコア（独自算出の注目度）: 22.521746860874305
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aligning Large Language Models (LLMs) with human feedback is crucial for their development. Existing preference optimization methods such as DPO and KTO, while improved based on Reinforcement Learning from Human Feedback (RLHF), are inherently derived from PPO, requiring a reference model that adds GPU memory resources and relies heavily on abundant preference data. Meanwhile, current preference optimization research mainly targets single-question scenarios with two replies, neglecting optimization with multiple replies, which leads to a waste of data in the application. This study introduces the MPPO algorithm, which leverages the average likelihood of model responses to fit the reward function and maximizes the utilization of preference data. Through a comparison of Point-wise, Pair-wise, and List-wise implementations, we found that the Pair-wise approach achieves the best performance, significantly enhancing the quality of model responses. Experimental results demonstrate MPPO's outstanding performance across various benchmarks. On MT-Bench, MPPO outperforms DPO, ORPO, and SimPO. Notably, on Arena-Hard, MPPO surpasses DPO and ORPO by substantial margins. These achievements underscore the remarkable advantages of MPPO in preference optimization tasks.
Abstract（参考訳）: 人間のフィードバックでLLM(Large Language Models)を調整することは、開発に不可欠である。 DPOやKTOのような既存の好み最適化手法は、人間のフィードバックからの強化学習(RLHF)に基づいて改善されているが、本質的にはPPOから派生しており、GPUメモリリソースを追加し、豊富な好みデータに大きく依存する参照モデルを必要とする。一方、現在の選好最適化研究は、主に2つの応答を持つ単一要求シナリオをターゲットにしており、複数の応答を持つ最適化を無視しているため、アプリケーション内のデータの浪費につながる。本研究では,モデル応答の平均確率を利用して報酬関数に適合し,好みデータの利用を最大化するMPPOアルゴリズムを提案する。 Pair-wise, Pair-wise, List-wiseの実装を比較した結果, Pair-wiseアプローチが最高の性能を実現し, モデル応答の質を大幅に向上させることがわかった。実験の結果、MPPOは様々なベンチマークで優れた性能を示した。 MT-Benchでは、MPPOはDPO、ORPO、SimPOより優れている。特に、Arena-Hardでは、MPPOはDPOとORPOをかなり上回っている。これらの成果は、優先最適化タスクにおけるMPPOの顕著なアドバンテージを浮き彫りにしている。

関連論文リスト

MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge [35.703451475662995]
本稿では,好みから学習するフレームワークであるPosteriori Preference Optimization (MaPPO)を提案する。 MaPPOは、事前の報酬推定値を、原則的最大値MaP(Posteriori)目標に統合する。 MaPPOはDPOの亜種を一貫して改善したプラグインとして使用できる。
論文参考訳（メタデータ） (2025-07-27T05:26:50Z)
Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。 RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文参考訳（メタデータ） (2025-05-26T09:54:02Z)
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文参考訳（メタデータ） (2025-05-25T06:41:28Z)
Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-08T18:51:01Z)
TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。 TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文参考訳（メタデータ） (2024-10-06T04:03:00Z)
Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。 OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文参考訳（メタデータ） (2024-10-06T03:49:28Z)
AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文参考訳（メタデータ） (2024-09-13T14:03:49Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文参考訳（メタデータ） (2024-06-13T15:16:11Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
DPO Meets PPO: Reinforced Token Optimization for RLHF [35.638723885233475]
本稿では,トークンワイド報酬関数を選好データから学習し,この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うアルゴリズムを提案する。実験により、texttRTOはPPOや他の直接選好学習アルゴリズムよりも優れていることが示された。
論文参考訳（メタデータ） (2024-04-29T17:58:30Z)
Policy Optimization in RLHF: The Impact of Out-of-preference Data [17.126977660436225]
本稿では、DPO(Direct Preference Optimization)とReward-Model-Based Policy Optimization(RMB-PO)の2つの一般的なアライメント手法について検討する。 RMB-PO+とも呼ばれるRMB-POの変種も検討されている。特に、DPOと比較して、RMB-POはポリシー生成データを使用し、RMB-PO+は新たな好みのないデータを活用する。
論文参考訳（メタデータ） (2023-12-17T02:14:15Z)
Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-13T01:07:25Z)
You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。 ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文参考訳（メタデータ） (2022-01-31T20:26:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。