論文の概要: FuseRL: Dense Preference Optimization for Heterogeneous Model Fusion
- arxiv url: http://arxiv.org/abs/2504.06562v2
- Date: Thu, 17 Apr 2025 09:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 12:30:33.67393
- Title: FuseRL: Dense Preference Optimization for Heterogeneous Model Fusion
- Title(参考訳): 不均一モデル融合のためのDense Preference Optimization
- Authors: Longguang Zhong, Fanqi Wan, Ziyi Yang, Guosheng Liang, Tianyuan Shi, Xiaojun Quan,
- Abstract要約: 本稿では,FuseSFTとFusePOを組み合わせた2段階のフレームワークを提案する。
FusePOは複数のソースモデルの出力に基づいて重み付けされた好みを最適化し、優れたアライメント性能を実現する。
提案手法は,AlpacaEval-2 と Arena-Hard ベンチマークを用いた 8B LLM の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 33.5714726499406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heterogeneous model fusion enhances the performance of LLMs by integrating the knowledge and capabilities of multiple structurally diverse models. However, existing approaches often rely solely on selecting the best output for each prompt from source models, which underutilizes their full potential due to limited source knowledge and results in sparse optimization signals. To address this limitation, we propose FuseRL, a novel two-stage framework comprising FuseSFT and FusePO to maximize the utilization of source LLMs. FuseSFT establishes a robust initialization by integrating the strengths of heterogeneous source models through weighted supervised fine-tuning (SFT) on diverse outputs for each prompt. FusePO optimizes weighted preferences based on the outputs of multiple source models to enable superior alignment performance. Extensive experiments demonstrate the effectiveness of our framework across various preference alignment methods, including RLOO, DPO, and SimPO. Using Llama-3.1-8B-Instruct as the target model, our approach achieves state-of-the-art performance among 8B LLMs on the AlpacaEval-2 and Arena-Hard benchmarks. Further analysis suggests that FuseSFT regularizes the training process to reduce overfitting, while FusePO introduces dense and diverse signals for preference optimization.
- Abstract(参考訳): 不均一モデル融合は、複数の構造的多様モデルの知識と能力を統合することにより、LLMの性能を向上させる。
しかし、既存のアプローチはソースモデルから各プロンプトに対して最適な出力を選択することにのみ依存することが多く、ソース知識が限られており、その結果はスパース最適化信号となる。
この制限に対処するため,FuseSFTとFusePOを組み合わせた新たな2段階フレームワークであるFuseRLを提案する。
FuseSFTは、各プロンプトの様々な出力に対して、重み付けされた教師付き微調整(SFT)を通して、異種ソースモデルの強度を統合することにより、堅牢な初期化を確立する。
FusePOは、複数のソースモデルの出力に基づいて重み付けされた好みを最適化し、アライメント性能を向上する。
RLOO, DPO, SimPO など, 様々な選好アライメント手法におけるフレームワークの有効性を実証した。
Llama-3.1-8B-Instruct を対象モデルとして,AlpacaEval-2 と Arena-Hard ベンチマークを用いた8B LLM の最先端性能を実現する。
さらに分析したところ、FuseSFTはオーバーフィッティングを減らすためにトレーニングプロセスを正規化し、FusePOは好みの最適化のために密度が高く多様な信号を導入している。
関連論文リスト
- Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。
L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。
そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文 参考訳(メタデータ) (2025-03-14T14:48:12Z) - DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion [35.98702433016698]
InfiFusionは、ドメイン特化言語モデル(LLM)を単一のピボットモデルに統合するために設計された、効率的なトレーニングパイプラインである。
Pairwise Fusion (InfiFusion$_p$) と Unified Fusion (InfiFusion$_u$) の2つの融合戦略を提案する。
InfiFusionは、Qwen-2.5-14B-InstructやPhi-4といった最先端のモデルよりも、11の広く適用されたベンチマークで優れている。
論文 参考訳(メタデータ) (2025-01-06T06:29:55Z) - Weighted-Reward Preference Optimization for Implicit Model Fusion [35.57286356489511]
提案手法は,ソースLLMとターゲットLLM間の優先最適化を有効に活用する暗黙融合方式を提案する。
WRPOは語彙アライメントやマトリックス融合の必要性を排除し、様々なLSMに対応するために効率的にスケールすることができる。
MT-Bench、AlpacaEval-2、Arena-Hardベンチマークの実験は、WRPOが既存の知識融合法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-12-04T10:15:12Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Expensive Multi-Objective Bayesian Optimization Based on Diffusion Models [17.19004913553654]
多目的ベイズ最適化(MOBO)は、様々な高価な多目的最適化問題(EMOP)において有望な性能を示した。
高価なMOBOのための合成拡散モデルに基づくパレートセット学習アルゴリズム,すなわちCDM-PSLを提案する。
提案アルゴリズムは,様々な最先端MOBOアルゴリズムと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-05-14T14:55:57Z) - End-to-End Stochastic Optimization with Energy-Based Model [18.60842637575249]
近年,未知パラメータを含む客観的最適化問題に対して,DFL(Decision- Focus Learning)が提案されている。
エネルギーモデルを用いた層最適化のための汎用的で効率的なDFL手法SO-EBMを提案する。
論文 参考訳(メタデータ) (2022-11-25T00:14:12Z) - Leveraging Trust for Joint Multi-Objective and Multi-Fidelity
Optimization [0.0]
本稿では,ベイズ的多目的・多忠実度最適化(MOMF)に対する新しいアプローチについて検討する。
複数目的とデータソースの同時最適化を支援するために,信頼度基準の革新的利用を提案する。
本手法はプラズマ物理学や流体力学などの分野におけるシミュレーション問題の解法に適用可能である。
論文 参考訳(メタデータ) (2021-12-27T20:55:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。