論文の概要: InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.13878v1
- Date: Tue, 20 May 2025 03:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.656452
- Title: InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models
- Title(参考訳): InfiFPO:大規模言語モデルにおける優先最適化による暗黙のモデル融合
- Authors: Yanggan Gu, Zhaoyi Yan, Yuanyi Wang, Yiming Zhang, Qi Zhou, Fei Wu, Hongxia Yang,
- Abstract要約: InfiFPOは暗黙的なモデル融合のための選好最適化手法である。
これにより、ピボットモデルは、ソースモデルからの知識を効果的に蒸留しながら、人間の好みに合わせることができる。
数学、コーディング、推論タスクの能力を大幅に改善する。
- 参考スコア(独自算出の注目度): 36.27704594180795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model fusion combines multiple Large Language Models (LLMs) with different strengths into a more powerful, integrated model through lightweight training methods. Existing works on model fusion focus primarily on supervised fine-tuning (SFT), leaving preference alignment (PA) --a critical phase for enhancing LLM performance--largely unexplored. The current few fusion methods on PA phase, like WRPO, simplify the process by utilizing only response outputs from source models while discarding their probability information. To address this limitation, we propose InfiFPO, a preference optimization method for implicit model fusion. InfiFPO replaces the reference model in Direct Preference Optimization (DPO) with a fused source model that synthesizes multi-source probabilities at the sequence level, circumventing complex vocabulary alignment challenges in previous works and meanwhile maintaining the probability information. By introducing probability clipping and max-margin fusion strategies, InfiFPO enables the pivot model to align with human preferences while effectively distilling knowledge from source models. Comprehensive experiments on 11 widely-used benchmarks demonstrate that InfiFPO consistently outperforms existing model fusion and preference optimization methods. When using Phi-4 as the pivot model, InfiFPO improve its average performance from 79.95 to 83.33 on 11 benchmarks, significantly improving its capabilities in mathematics, coding, and reasoning tasks.
- Abstract(参考訳): モデル融合は、複数の大規模言語モデル(LLM)と異なる強みを結合し、軽量なトレーニング手法によってより強力で統合されたモデルになる。
モデル融合に関する既存の研究は、主に教師付き微調整(SFT)に焦点を当てている。
WRPOのようなPA相上の現在の数少ない融合法は、確率情報を破棄しながら、ソースモデルからの応答出力のみを活用することにより、プロセスを単純化している。
この制限に対処するため,暗黙モデル融合の優先最適化手法であるInfiFPOを提案する。
InfiFPOは、直接選好最適化(DPO)における参照モデルを、複数のソース確率をシーケンスレベルで合成する融合ソースモデルに置き換える。
確率クリッピングと最大マージン融合戦略を導入することにより、InfiFPOはピボットモデルが人間の好みと整合し、ソースモデルからの知識を効果的に蒸留することを可能にする。
広く使用されている11のベンチマークに関する総合的な実験により、InfiFPOは既存のモデル融合および優先最適化手法より一貫して優れていることが示された。
ピボットモデルとしてPhi-4を使用する場合、InfiFPOは11のベンチマークで平均性能を79.95から83.33に改善し、数学、コーディング、推論タスクの能力を大幅に改善した。
関連論文リスト
- FuseRL: Dense Preference Optimization for Heterogeneous Model Fusion [33.5714726499406]
本稿では,FuseSFTとFusePOを組み合わせた2段階のフレームワークを提案する。
FusePOは複数のソースモデルの出力に基づいて重み付けされた好みを最適化し、優れたアライメント性能を実現する。
提案手法は,AlpacaEval-2 と Arena-Hard ベンチマークを用いた 8B LLM の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-09T03:51:53Z) - InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion [35.98702433016698]
InfiFusionは、ドメイン特化言語モデル(LLM)を単一のピボットモデルに統合するために設計された、効率的なトレーニングパイプラインである。
Pairwise Fusion (InfiFusion$_p$) と Unified Fusion (InfiFusion$_u$) の2つの融合戦略を提案する。
InfiFusionは、Qwen-2.5-14B-InstructやPhi-4といった最先端のモデルよりも、11の広く適用されたベンチマークで優れている。
論文 参考訳(メタデータ) (2025-01-06T06:29:55Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。