論文の概要: Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks
- arxiv url: http://arxiv.org/abs/2505.15414v1
- Date: Wed, 21 May 2025 11:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.609045
- Title: Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks
- Title(参考訳): 訓練ネットワークからの効率的なデータ駆動混合抽出
- Authors: Uranik Berisha, Jens Mehnert, Alexandru Paul Condurache,
- Abstract要約: ビジョントランスフォーマーは様々なコンピュータビジョンタスクの最先端モデルとして登場した。
しばしば、コストのかかる再訓練や、スクラッチからトレーニングも必要となる。
近年の進歩は、事前学習ネットワークを利用することで、これらの計算コストを削減することを目的としている。
- 参考スコア(独自算出の注目度): 46.498278084317704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have emerged as the state-of-the-art models in various Computer Vision tasks, but their high computational and resource demands pose significant challenges. While Mixture-of-Experts (MoE) can make these models more efficient, they often require costly retraining or even training from scratch. Recent developments aim to reduce these computational costs by leveraging pretrained networks. These have been shown to produce sparse activation patterns in the Multi-Layer Perceptrons (MLPs) of the encoder blocks, allowing for conditional activation of only relevant subnetworks for each sample. Building on this idea, we propose a new method to construct MoE variants from pretrained models. Our approach extracts expert subnetworks from the model's MLP layers post-training in two phases. First, we cluster output activations to identify distinct activation patterns. In the second phase, we use these clusters to extract the corresponding subnetworks responsible for producing them. On ImageNet-1k recognition tasks, we demonstrate that these extracted experts can perform surprisingly well out of the box and require only minimal fine-tuning to regain 98% of the original performance, all while reducing MACs and model size, by up to 36% and 32% respectively.
- Abstract(参考訳): ビジョントランスフォーマーは様々なコンピュータビジョンタスクにおいて最先端のモデルとして登場したが、その高い計算量とリソース要求は大きな課題を引き起こしている。
Mixture-of-Experts (MoE)はこれらのモデルをより効率的にするが、コストがかかるリトレーニングや、スクラッチからのトレーニングも必要になる。
近年の進歩は、事前学習ネットワークを利用することで、これらの計算コストを削減することを目的としている。
これらはエンコーダブロックのMLP(Multi-Layer Perceptrons)においてスパースアクティベーションパターンを生成することが示されており、各サンプルに対して関連するサブネットワークのみを条件付きアクティベートすることができる。
このアイデアに基づいて、事前訓練されたモデルからMoE変種を構築する新しい方法を提案する。
提案手法は,モデルのMLP層から2段階の訓練後,専門家のサブネットワークを抽出する。
まず、異なるアクティベーションパターンを識別するために出力アクティベーションをクラスタ化する。
第2段階では、これらのクラスターを用いて、それらを製造するための対応するサブネットを抽出する。
ImageNet-1kの認識タスクでは、抽出した専門家が驚くほどうまく動作し、元のパフォーマンスの98%を取り戻すために最小限の微調整しか必要とせず、MACとモデルサイズを最大36%と32%削減できることを示した。
関連論文リスト
- Is Tokenization Needed for Masked Particle Modelling? [8.79008927474707]
Masked Particle Modeling (MPM) は、無順序集合の表現表現を構築するための自己教師付き学習スキームである。
実装における非効率に対処し、より強力なデコーダを組み込むことにより、MPMを改善する。
これらの新しい手法は、ジェットの基礎モデルのための新しいテストベッドにおいて、オリジナルのMPMからのトークン化学習目標よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-19T09:12:29Z) - Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - LEMON: Lossless model expansion [43.40389747029802]
ディープニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急増するパフォーマンスにとって重要なものだ。
私たちは、より小さいがトレーニング済みのモデルの重みを使ってスケールされたモデルを初期化するレシピである、textbfL$ossl$textbfE$ss $textbfMO$del Expansio$textbfN$ (LEMON)を提示します。
LEMONは,視覚変換器の計算コストを56.7%削減し,BERTの33.2%削減した。
論文 参考訳(メタデータ) (2023-10-12T03:02:41Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。
これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T06:44:47Z) - Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。
本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。
MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。
我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文 参考訳(メタデータ) (2023-06-21T16:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。