論文の概要: InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion
- arxiv url: http://arxiv.org/abs/2501.02795v1
- Date: Mon, 06 Jan 2025 06:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:16.226719
- Title: InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion
- Title(参考訳): InfiFusion: LLM Fusionによるクロスモデル推論の統一フレームワーク
- Authors: Zhaoyi Yan, Zhijie Sang, Yiming Zhang, Yuhao Fu, Baoyi He, Qi Zhou, Yining Di, Chunlin Ji, Shengyu Zhang, Fei Wu, Hongxia Yang,
- Abstract要約: 本稿では,複数のドメイン特化モデルを効率的なピボットモデルに統合する戦略について検討する。
複数のLLMの強度を組み合わせるための2つの融合戦略を提案する。
GSM8K,MATH,HumanEvalの各タスクにおいて,9.27%,8.80%,8.89%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 35.56060538535215
- License:
- Abstract: Large Language Models (LLMs) have demonstrated strong performance across various reasoning tasks, yet building a single model that consistently excels across all domains remains challenging. This paper addresses this problem by exploring strategies to integrate multiple domain-specialized models into an efficient pivot model.We propose two fusion strategies to combine the strengths of multiple LLMs: (1) a pairwise, multi-step fusion approach that sequentially distills each source model into the pivot model, followed by a weight merging step to integrate the distilled models into the final model. This method achieves strong performance but requires substantial training effort; and (2) a unified fusion approach that aggregates all source models' outputs simultaneously.To improve the fusion process, we introduce a novel Rate-Skewness Adaptive Fusion (RSAF) technique, which dynamically adjusts top-K ratios during parameter merging for enhanced flexibility and stability.Furthermore, we propose an uncertainty-based weighting method for the unified approach, which dynamically balances the contributions of source models and outperforms other logits/distribution ensemble methods.We achieved accuracy improvements of 9.27%, 8.80%, and 8.89% on the GSM8K, MATH, and HumanEval tasks, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な推論タスクに対して強力なパフォーマンスを示していますが、すべてのドメインを一貫して拡張する単一のモデルを構築することは、依然として困難です。
本稿では,複数のドメイン固有化モデルを効率的なピボットモデルに統合する手法を検討することで,この問題に対処する。(1) 各ソースモデルをピボットモデルに逐次蒸留する2段階の多段階融合手法,続いて蒸留モデルを最終モデルに統合するための重み付け手法を提案する。
本手法は, 高い性能を達成できるが, 十分な訓練を要し, 2) 全ソースモデルの出力を同時に集約する統一融合手法である。また, 融合プロセスを改善するために, パラメータマージ中の上位K比を動的に調整し, 柔軟性と安定性を向上する新たなRSAF(Rate-Skewness Adaptive Fusion)技術を導入し, さらに, ソースモデルの寄与を動的にバランスし, その他のロジット/分配アンサンブル法を性能的に上回る統一手法について不確実性に基づく重み付け手法を提案し, 精度9.27%, 8.80%, 8.89%の精度向上を実現した。
関連論文リスト
- Fusion Matters: Learning Fusion in Deep Click-through Rate Prediction Models [27.477136474888564]
本稿では,接続学習と操作選択の両方を包含して,融合学習を自動化する手法であるOpsFusionを紹介する。
実験は3つの大規模データセット上で実施される。
論文 参考訳(メタデータ) (2024-11-24T06:21:59Z) - Wolf2Pack: The AutoFusion Framework for Dynamic Parameter Fusion [4.164728134421114]
我々は,事前学習されたチェックポイントを使わずに,マルチタスク学習のための異なるモデルパラメータを融合するフレームワークであるAutoFusionを紹介する。
我々は、よく使われるベンチマークデータセットの実験を通してAutoFusionの有効性を検証する。
私たちのフレームワークは、モデル統合のためのスケーラブルで柔軟なソリューションを提供し、将来の研究および実用的なアプリケーションのための強力なツールとして位置づけています。
論文 参考訳(メタデータ) (2024-10-08T07:21:24Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Straggler-resilient Federated Learning: Tackling Computation
Heterogeneity with Layer-wise Partial Model Training in Mobile Edge Network [4.1813760301635705]
本稿では,FedPMT(Federated partial Model Training)を提案する。
したがって、FedPMTのすべてのデバイスは、グローバルモデルの最も重要な部分を優先している。
実証的な結果は、FedPMTが既存のベンチマークFedDropを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2023-11-16T16:30:04Z) - Deep Model Fusion: A Survey [37.39100741978586]
Deep Model fusion/mergingは、複数のディープラーニングモデルのパラメータや予測を単一のモデルにマージする、新たなテクニックである。
高い計算コスト、高次元パラメータ空間、異なる異種モデル間の干渉など、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2023-09-27T14:40:12Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。