論文の概要: FuseRL: Dense Preference Optimization for Heterogeneous Model Fusion
- arxiv url: http://arxiv.org/abs/2504.06562v1
- Date: Wed, 09 Apr 2025 03:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:47.703507
- Title: FuseRL: Dense Preference Optimization for Heterogeneous Model Fusion
- Title(参考訳): 不均一モデル融合のためのDense Preference Optimization
- Authors: Longguang Zhong, Fanqi Wan, Ziyi Yang, Guosheng Liang, Tianyuan Shi, Xiaojun Quan,
- Abstract要約: 本稿では,FuseSFTとFusePOを組み合わせた2段階のフレームワークを提案する。
FusePOは複数のソースモデルの出力に基づいて重み付けされた好みを最適化し、優れたアライメント性能を実現する。
提案手法は,AlpacaEval-2 と Arena-Hard ベンチマークを用いた 8B LLM の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 33.5714726499406
- License:
- Abstract: Heterogeneous model fusion enhances the performance of LLMs by integrating the knowledge and capabilities of multiple structurally diverse models. However, existing approaches often rely solely on selecting the best output for each prompt from source models, which underutilizes their full potential due to limited source knowledge and results in sparse optimization signals. To address this limitation, we propose FuseRL, a novel two-stage framework comprising FuseSFT and FusePO to maximize the utilization of source LLMs. FuseSFT establishes a robust initialization by integrating the strengths of heterogeneous source models through weighted supervised fine-tuning (SFT) on diverse outputs for each prompt. FusePO optimizes weighted preferences based on the outputs of multiple source models to enable superior alignment performance. Extensive experiments demonstrate the effectiveness of our framework across various preference alignment methods, including RLOO, DPO, and SimPO. Using Llama-3.1-8B-Instruct as the target model, our approach achieves state-of-the-art performance among 8B LLMs on the AlpacaEval-2 and Arena-Hard benchmarks. Further analysis suggests that FuseSFT regularizes the training process to reduce overfitting, while FusePO introduces dense and diverse signals for preference optimization.
- Abstract(参考訳): 不均一モデル融合は、複数の構造的多様モデルの知識と能力を統合することにより、LLMの性能を向上させる。
しかし、既存のアプローチはソースモデルから各プロンプトに対して最適な出力を選択することにのみ依存することが多く、ソース知識が限られており、その結果はスパース最適化信号となる。
この制限に対処するため,FuseSFTとFusePOを組み合わせた新たな2段階フレームワークであるFuseRLを提案する。
FuseSFTは、各プロンプトの様々な出力に対して、重み付けされた教師付き微調整(SFT)を通して、異種ソースモデルの強度を統合することにより、堅牢な初期化を確立する。
FusePOは、複数のソースモデルの出力に基づいて重み付けされた好みを最適化し、アライメント性能を向上する。
RLOO, DPO, SimPO など, 様々な選好アライメント手法におけるフレームワークの有効性を実証した。
Llama-3.1-8B-Instruct を対象モデルとして,AlpacaEval-2 と Arena-Hard ベンチマークを用いた8B LLM の最先端性能を実現する。
さらに分析したところ、FuseSFTはオーバーフィッティングを減らすためにトレーニングプロセスを正規化し、FusePOは好みの最適化のために密度が高く多様な信号を導入している。
関連論文リスト
- Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Weighted-Reward Preference Optimization for Implicit Model Fusion [35.57286356489511]
提案手法は,ソースLLMとターゲットLLM間の優先最適化を有効に活用する暗黙融合方式を提案する。
WRPOは語彙アライメントやマトリックス融合の必要性を排除し、様々なLSMに対応するために効率的にスケールすることができる。
MT-Bench、AlpacaEval-2、Arena-Hardベンチマークの実験は、WRPOが既存の知識融合法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-12-04T10:15:12Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Expensive Multi-Objective Bayesian Optimization Based on Diffusion Models [17.19004913553654]
多目的ベイズ最適化(MOBO)は、様々な高価な多目的最適化問題(EMOP)において有望な性能を示した。
高価なMOBOのための合成拡散モデルに基づくパレートセット学習アルゴリズム,すなわちCDM-PSLを提案する。
提案アルゴリズムは,様々な最先端MOBOアルゴリズムと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-05-14T14:55:57Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - End-to-End Stochastic Optimization with Energy-Based Model [18.60842637575249]
近年,未知パラメータを含む客観的最適化問題に対して,DFL(Decision- Focus Learning)が提案されている。
エネルギーモデルを用いた層最適化のための汎用的で効率的なDFL手法SO-EBMを提案する。
論文 参考訳(メタデータ) (2022-11-25T00:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。