論文の概要: SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models
- arxiv url: http://arxiv.org/abs/2408.10174v2
- Date: Mon, 26 Aug 2024 07:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 20:20:40.706981
- Title: SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models
- Title(参考訳): SMILE: プレトレーニング基礎モデルによる低ランクエキスパートのゼロショットスパース混合
- Authors: Anke Tang, Li Shen, Yong Luo, Shuai Xie, Han Hu, Lefei Zhang, Bo Du, Dacheng Tao,
- Abstract要約: 我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
- 参考スコア(独自算出の注目度): 85.67096251281191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep model training on extensive datasets is increasingly becoming cost-prohibitive, prompting the widespread adoption of deep model fusion techniques to leverage knowledge from pre-existing models. From simple weight averaging to more sophisticated methods like AdaMerging, model fusion effectively improves model performance and accelerates the development of new models. However, potential interference between parameters of individual models and the lack of interpretability in the fusion progress remain significant challenges. Existing methods often try to resolve the parameter interference issue by evaluating attributes of parameters, such as their magnitude or sign, or by parameter pruning. In this study, we begin by examining the fine-tuning of linear layers through the lens of subspace analysis and explicitly define parameter interference as an optimization problem to shed light on this subject. Subsequently, we introduce an innovative approach to model fusion called zero-shot Sparse MIxture of Low-rank Experts (SMILE) construction, which allows for the upscaling of source models into an MoE model without extra data or further training. Our approach relies on the observation that fine-tuning mostly keeps the important parts from the pre-training, but it uses less significant or unused areas to adapt to new tasks. Also, the issue of parameter interference, which is intrinsically intractable in the original parameter space, can be managed by expanding the dimensions. We conduct extensive experiments across diverse scenarios, such as image classification and text generation tasks, using full fine-tuning and LoRA fine-tuning, and we apply our method to large language models (CLIP models, Flan-T5 models, and Mistral-7B models), highlighting the adaptability and scalability of SMILE. Code is available at https://github.com/tanganke/fusion_bench
- Abstract(参考訳): 広範囲なデータセットの深層モデルトレーニングはコストを抑えつつあり、既存のモデルから知識を活用するための深層モデル融合技術が広く採用されている。
単純なウェイト平均化からAdaMergingのようなより洗練されたメソッドまで、モデル融合はモデルの性能を効果的に改善し、新しいモデルの開発を加速します。
しかし、個々のモデルのパラメータ間の潜在的な干渉と融合進行における解釈可能性の欠如は重要な課題である。
既存の手法は、しばしばパラメータ干渉の問題を、その大きさや符号などのパラメータの属性を評価したり、パラメータのプルーニングによって解決しようとする。
本研究では,線形層をサブスペース解析のレンズで微調整し,パラメータ干渉をこの問題に光を当てるための最適化問題として明確に定義することから始める。
その後,ゼロショット・スパース・ミクチャー・オブ・ローランクエキスパート(SMILE)構築と呼ばれるモデル融合の革新的アプローチを導入し,余分なデータやトレーニングを伴わずに,ソースモデルをMoEモデルにアップスケーリングできるようにする。
私たちのアプローチは、微調整が主にトレーニング前の重要な部分を維持することに依存していますが、新しいタスクに適応するためには、重要または未使用の領域があまり使われません。
また、元のパラメータ空間で本質的に抽出可能なパラメータ干渉の問題は、次元を拡大することで管理できる。
画像分類やテキスト生成タスク,フル微調整やLoRA微調整など,さまざまなシナリオを対象とした広範な実験を行い,大言語モデル(CLIPモデル,Flan-T5モデル,Mistral-7Bモデル)に適用し,SMILEの適応性と拡張性を強調した。
コードはhttps://github.com/tanganke/fusion_benchで入手できる。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Activated Parameter Locating via Causal Intervention for Model Merging [26.98015572633289]
モデルマージは複数のモデルを1つのモデルに組み合わせ、追加のトレーニングを必要とせずに、説得力のある一般化を実現する。
既存のモデルでは、デルタパラメータの一部を落として、パフォーマンスを維持しながらコンフリクトを緩和できることが示されている。
本稿では、因果的介入を利用して重要度を推定し、より正確なパラメータのドロップとコンフリクトの軽減を可能にするアクティブ・ロケーティング(APL)手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T14:00:00Z) - FIARSE: Model-Heterogeneous Federated Learning via Importance-Aware Submodel Extraction [26.26211464623954]
Federated Importance-Aware Submodel extract (FIARSE)は、モデルパラメータの重要性に基づいて、サブモデルを動的に調整する新しいアプローチである。
既存の研究と比較して,提案手法はサブモデル抽出の理論的基礎を提供する。
提案したFIARSEの優れた性能を示すため,様々なデータセットで大規模な実験を行った。
論文 参考訳(メタデータ) (2024-07-28T04:10:11Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - On the Influence of Enforcing Model Identifiability on Learning dynamics
of Gaussian Mixture Models [14.759688428864159]
特異モデルからサブモデルを抽出する手法を提案する。
本手法はトレーニング中のモデルの識別性を強制する。
この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2022-06-17T07:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。