論文の概要: FREE-Merging: Fourier Transform for Model Merging with Lightweight Experts
- arxiv url: http://arxiv.org/abs/2411.16815v1
- Date: Mon, 25 Nov 2024 15:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:30.132807
- Title: FREE-Merging: Fourier Transform for Model Merging with Lightweight Experts
- Title(参考訳): FREE-Merging:軽量専門家によるモデルマージのためのフーリエ変換
- Authors: Shenghe Zheng, Hongzhi Wang,
- Abstract要約: 既存のモデルマージメソッドは、パフォーマンスとデプロイメントコストのトレードオフに直面する。
本稿では、周波数領域情報を利用して有害な特殊情報を効率的にフィルタリングするFR-Mergingを提案する。
フリーマージン(FR-Merging with light expert)は、トレーニングコスト、推論速度、ストレージ要件、パフォーマンスのバランスのとれたトレードオフを打つ。
- 参考スコア(独自算出の注目度): 4.7478239658886325
- License:
- Abstract: In the current era of rapid expansion in model scale, there is an increasing availability of open-source model weights for various tasks. However, the capabilities of a single fine-tuned model often fall short of meeting diverse deployment needs. Model merging has thus emerged as a widely focused method for efficiently building a single model tailored for multiple tasks combined from existing models. Nevertheless, existing model merging methods face challenging trade-offs between performance and deployment costs, primarily due to task conflicts within the merged network. Our analysis of neural networks reveals that some task-specific information introduced by fine-tuning minimally enhances performance but heavily impacts generalization, leading to task conflicts. To mitigate the impact of this information, we propose FR-Merging, an innovative method that leverages frequency domain information to efficiently filter harmful specialized information, thereby minimizing the impact of task conflicts on the backbone with minimal cost. Since performance loss is inevitable with cost-free merging methods, we introduce a lightweight task-specific expert that can be dynamically integrated during inference to compensate for information loss. This framework, FREE-Merging (FR-Merging with lightweight experts), strikes a balanced trade-off between training cost, inference speed, storage requirements, and performance. We demonstrate the effectiveness of both FR-Merging and FREE-Merging on multiple tasks across CV, NLP, and Multi-Modal domains and show that they can be flexibly adapted to meet specific needs.
- Abstract(参考訳): モデルスケールが急速に拡大する現在の時代には、様々なタスクに対するオープンソースのモデルの重み付けが増加しています。
しかし、単一の微調整されたモデルの能力は、様々なデプロイメントニーズを満たすには不十分であることが多い。
モデルマージは、既存のモデルと組み合わせた複数のタスクに適した1つのモデルを効率的に構築するための、広く焦点を絞った方法として登場した。
それでも、既存のモデルマージ手法は、主にマージネットワーク内のタスクコンフリクトのために、パフォーマンスとデプロイメントのコストの間に難しいトレードオフに直面します。
ニューラルネットワークの分析により、微調整によって導入されたタスク固有の情報によって、パフォーマンスは最小限に向上するが、一般化に大きく影響し、タスクの衝突につながることが明らかとなった。
この情報の影響を軽減するために,周波数領域情報を利用して有害な特殊情報を効率的にフィルタリングするFR-Mergingを提案する。
コストフリーのマージ手法では性能損失は避けられないため、情報損失を補うために推論中に動的に統合できる軽量なタスク特化専門家を導入する。
このフレームワークであるFREE-Merging (FR-Merging with light expert)は、トレーニングコスト、推論速度、ストレージ要件、パフォーマンスのバランスのとれたトレードオフを打つ。
CV,NLP,Multi-Modal領域にまたがる複数のタスクにおけるFR-MergingとFREE-Mergingの有効性を実証し,特定のニーズに柔軟に適用可能であることを示す。
関連論文リスト
- Reprogramming Foundational Large Language Models(LLMs) for Enterprise Adoption for Spatio-Temporal Forecasting Applications: Unveiling a New Era in Copilot-Guided Cross-Modal Time Series Representation Learning [0.0]
パティオ時間予測は、輸送システム、物流、サプライチェーン管理など、様々な分野において重要な役割を担っている。
本稿では,オープンソースの大規模・小規模言語モデル(LLM,LM)と従来の予測手法を組み合わせたハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-08-26T16:11:53Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging [21.918559935122786]
モデルマージは、複数のタスク固有のモデルを、余分なトレーニングなしで単一のマルチタスクモデルに結合する、有望な方法である。
従来のモデルマージ手法は、微調整されたモデルに比べて大きな性能差を示すことが多い。
共有されたタスク固有の知識と排他的なタスク固有の知識の両方が、パフォーマンスのマージには不可欠であるが、排他的な知識を直接マージすることは、全体的なパフォーマンスを妨げていることを示す。
本稿では,1)知識を共有コンポーネントと排他コンポーネントにモジュール化し,冗長性を低減し効率を向上する圧縮,(2)共有およびタスク固有の知識を動的にマージする,という2つの主要な段階を包含する手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:31:55Z) - FedHPL: Efficient Heterogeneous Federated Learning with Prompt Tuning and Logit Distillation [32.305134875959226]
フェデレートラーニング(FL)は、分散クライアントが中央サーバーでモデルを協調訓練できるプライバシー保護パラダイムである。
我々はパラメータ効率の高い$textbfFed$erated Learning framework for $textbfH$eterogeneous settingsを提案する。
我々のフレームワークは最先端のFLアプローチより優れており、オーバーヘッドもトレーニングラウンドも少なくなっている。
論文 参考訳(メタデータ) (2024-05-27T15:25:32Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。