論文の概要: FREE-Merging: Fourier Transform for Efficient Model Merging
- arxiv url: http://arxiv.org/abs/2411.16815v2
- Date: Tue, 25 Mar 2025 16:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:14:19.255074
- Title: FREE-Merging: Fourier Transform for Efficient Model Merging
- Title(参考訳): FREE-Merging:効率的なモデルマージのためのフーリエ変換
- Authors: Shenghe Zheng, Hongzhi Wang,
- Abstract要約: 本稿では,バックボーン上の有害周波数領域干渉を最小の計算オーバーヘッドで効果的にフィルタするFR-Mergingを提案する。
Free-Merging(FR-Merging with experts)は、トレーニングコスト、推論レイテンシ、ストレージ要件、パフォーマンスのバランスのとれたトレードオフを打つ。
CV,NLP,Multi-Modalドメインにまたがる複数のタスクにおけるFR-MergingとFREE-Mergingの有効性を示す。
- 参考スコア(独自算出の注目度): 4.7478239658886325
- License:
- Abstract: With the rapid growth of deep learning, there is an increasing availability of open-source models for various tasks. However, single fine-tuned models often fall short of meeting the diverse needs of users. Model merging has thus emerged as an efficient method to integrate the capabilities of existing models into a unified model. Nevertheless, existing model merging methods face challenging trade-offs between performance and deployment costs, primarily due to task interference. For the first time, we reveal that task interference is evident in the frequency domain of model parameters, yet current efforts only focus on spatial domain solutions, which are largely ineffective in addressing frequency domain interference. To mitigate the impact of frequency domain interference, we propose FR-Merging, an innovative method that effectively filters harmful frequency domain interference on the backbone with minimal computational overhead. Since performance loss is inevitable with cost-free methods, we propose a lightweight task-specific expert module that dynamically compensates for information loss during merging. This proposed framework, FREE-Merging (FR-Merging with experts), strikes a balanced trade-off between training cost, inference latency, storage requirements, and performance. We demonstrate the effectiveness of both FR-Merging and FREE-Merging on multiple tasks across CV, NLP, and Multi-Modal domains and show that they can be flexibly adapted to specific needs.
- Abstract(参考訳): ディープラーニングの急速な成長に伴い、さまざまなタスクのためのオープンソースモデルが利用可能になっている。
しかし、単一の微調整されたモデルは、ユーザの多様なニーズを満たすのに足りていないことが多い。
モデルマージは、既存のモデルの機能を統一モデルに統合する効率的な方法として登場した。
それでも、既存のモデルマージメソッドは、主にタスクの干渉によって、パフォーマンスとデプロイメントのコストの間に難しいトレードオフに直面します。
モデルパラメータの周波数領域において,タスク干渉は明らかであるが,近年の課題は,周波数領域干渉にはほとんど対処できない空間領域解にのみ焦点をあてることである。
周波数領域干渉の影響を軽減するため,計算オーバーヘッドが最小限に抑えられたバックボーン上の有害周波数領域干渉を効果的にフィルタするFR-Mergingを提案する。
コストフリーの手法では性能損失は避けられないため,マージ時の情報損失を動的に補償する軽量なタスク固有専門家モジュールを提案する。
提案されたフレームワークであるFREE-Merging(FR-Merging with experts)は、トレーニングコスト、推論レイテンシ、ストレージ要件、パフォーマンスのバランスのとれたトレードオフを突破する。
CV,NLP,Multi-Modalドメインにまたがる複数のタスクにおけるFR-MergingとFREE-Mergingの有効性を実証し,それらが特定のニーズに柔軟に適用可能であることを示す。
関連論文リスト
- 1bit-Merging: Dynamic Quantized Merging for Large Language Models [20.19975755949984]
texttt1bit-Mergingは、タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し、パフォーマンスとストレージ効率のバランスをとる新しいフレームワークである。
我々は,texttt1bit-Mergingが既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に削減できることを実証した。
論文 参考訳(メタデータ) (2025-02-15T09:47:50Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Parameter-Efficient Interventions for Enhanced Model Merging [0.7373617024876725]
モデルマージは、タスク固有のモデルからの知識を統一されたマルチタスクモデルに結合し、すべてのタスクデータに対する共同トレーニングを避ける。
モデル全体の表現バイアスを効果的に緩和するマルチタスクモデルマージの新しいアプローチであるIntervMergeを提案する。
IntervMergeは、パラメータが少なくて最先端のアプローチを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-12-22T13:58:12Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - FedHPL: Efficient Heterogeneous Federated Learning with Prompt Tuning and Logit Distillation [32.305134875959226]
フェデレートラーニング(FL)は、分散クライアントが中央サーバーでモデルを協調訓練できるプライバシー保護パラダイムである。
我々はパラメータ効率の高い$textbfFed$erated Learning framework for $textbfH$eterogeneous settingsを提案する。
我々のフレームワークは最先端のFLアプローチより優れており、オーバーヘッドもトレーニングラウンドも少なくなっている。
論文 参考訳(メタデータ) (2024-05-27T15:25:32Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。