論文の概要: FREE-Merging: Fourier Transform for Model Merging with Lightweight Experts
- arxiv url: http://arxiv.org/abs/2411.16815v1
- Date: Mon, 25 Nov 2024 15:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:30.132807
- Title: FREE-Merging: Fourier Transform for Model Merging with Lightweight Experts
- Title(参考訳): FREE-Merging:軽量専門家によるモデルマージのためのフーリエ変換
- Authors: Shenghe Zheng, Hongzhi Wang,
- Abstract要約: 既存のモデルマージメソッドは、パフォーマンスとデプロイメントコストのトレードオフに直面する。
本稿では、周波数領域情報を利用して有害な特殊情報を効率的にフィルタリングするFR-Mergingを提案する。
フリーマージン(FR-Merging with light expert)は、トレーニングコスト、推論速度、ストレージ要件、パフォーマンスのバランスのとれたトレードオフを打つ。
- 参考スコア(独自算出の注目度): 4.7478239658886325
- License:
- Abstract: In the current era of rapid expansion in model scale, there is an increasing availability of open-source model weights for various tasks. However, the capabilities of a single fine-tuned model often fall short of meeting diverse deployment needs. Model merging has thus emerged as a widely focused method for efficiently building a single model tailored for multiple tasks combined from existing models. Nevertheless, existing model merging methods face challenging trade-offs between performance and deployment costs, primarily due to task conflicts within the merged network. Our analysis of neural networks reveals that some task-specific information introduced by fine-tuning minimally enhances performance but heavily impacts generalization, leading to task conflicts. To mitigate the impact of this information, we propose FR-Merging, an innovative method that leverages frequency domain information to efficiently filter harmful specialized information, thereby minimizing the impact of task conflicts on the backbone with minimal cost. Since performance loss is inevitable with cost-free merging methods, we introduce a lightweight task-specific expert that can be dynamically integrated during inference to compensate for information loss. This framework, FREE-Merging (FR-Merging with lightweight experts), strikes a balanced trade-off between training cost, inference speed, storage requirements, and performance. We demonstrate the effectiveness of both FR-Merging and FREE-Merging on multiple tasks across CV, NLP, and Multi-Modal domains and show that they can be flexibly adapted to meet specific needs.
- Abstract(参考訳): モデルスケールが急速に拡大する現在の時代には、様々なタスクに対するオープンソースのモデルの重み付けが増加しています。
しかし、単一の微調整されたモデルの能力は、様々なデプロイメントニーズを満たすには不十分であることが多い。
モデルマージは、既存のモデルと組み合わせた複数のタスクに適した1つのモデルを効率的に構築するための、広く焦点を絞った方法として登場した。
それでも、既存のモデルマージ手法は、主にマージネットワーク内のタスクコンフリクトのために、パフォーマンスとデプロイメントのコストの間に難しいトレードオフに直面します。
ニューラルネットワークの分析により、微調整によって導入されたタスク固有の情報によって、パフォーマンスは最小限に向上するが、一般化に大きく影響し、タスクの衝突につながることが明らかとなった。
この情報の影響を軽減するために,周波数領域情報を利用して有害な特殊情報を効率的にフィルタリングするFR-Mergingを提案する。
コストフリーのマージ手法では性能損失は避けられないため、情報損失を補うために推論中に動的に統合できる軽量なタスク特化専門家を導入する。
このフレームワークであるFREE-Merging (FR-Merging with light expert)は、トレーニングコスト、推論速度、ストレージ要件、パフォーマンスのバランスのとれたトレードオフを打つ。
CV,NLP,Multi-Modal領域にまたがる複数のタスクにおけるFR-MergingとFREE-Mergingの有効性を実証し,特定のニーズに柔軟に適用可能であることを示す。
関連論文リスト
- 1bit-Merging: Dynamic Quantized Merging for Large Language Models [20.19975755949984]
texttt1bit-Mergingは、タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し、パフォーマンスとストレージ効率のバランスをとる新しいフレームワークである。
我々は,texttt1bit-Mergingが既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に削減できることを実証した。
論文 参考訳(メタデータ) (2025-02-15T09:47:50Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Parameter-Efficient Interventions for Enhanced Model Merging [0.7373617024876725]
モデルマージは、タスク固有のモデルからの知識を統一されたマルチタスクモデルに結合し、すべてのタスクデータに対する共同トレーニングを避ける。
モデル全体の表現バイアスを効果的に緩和するマルチタスクモデルマージの新しいアプローチであるIntervMergeを提案する。
IntervMergeは、パラメータが少なくて最先端のアプローチを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-12-22T13:58:12Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - FedHPL: Efficient Heterogeneous Federated Learning with Prompt Tuning and Logit Distillation [32.305134875959226]
フェデレートラーニング(FL)は、分散クライアントが中央サーバーでモデルを協調訓練できるプライバシー保護パラダイムである。
我々はパラメータ効率の高い$textbfFed$erated Learning framework for $textbfH$eterogeneous settingsを提案する。
我々のフレームワークは最先端のFLアプローチより優れており、オーバーヘッドもトレーニングラウンドも少なくなっている。
論文 参考訳(メタデータ) (2024-05-27T15:25:32Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。