論文の概要: MLP Fusion: Towards Efficient Fine-tuning of Dense and Mixture-of-Experts Language Models
- arxiv url: http://arxiv.org/abs/2307.08941v3
- Date: Mon, 06 Jan 2025 05:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:04:31.419304
- Title: MLP Fusion: Towards Efficient Fine-tuning of Dense and Mixture-of-Experts Language Models
- Title(参考訳): MLP Fusion:DenseとMixture-of-Experts言語モデルの効率的な微調整を目指して
- Authors: Mengting Ai, Tianxin Wei, Yifan Chen, Zeming Guo, Jingrui He,
- Abstract要約: 訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
微調整に特化して設計されたワンショット圧縮技術を提案する。
- 参考スコア(独自算出の注目度): 33.86069537521178
- License:
- Abstract: Fine-tuning a pre-trained language model (PLM) emerges as the predominant strategy in many natural language processing applications. However, this process is known to be expensive, especially on edge devices with low computing power. While general approaches (e.g. quantization and distillation) have been widely studied to reduce the compute/memory of PLM fine-tuning, one-shot compression techniques specifically designed for fine-tuning remain largely unexplored. In this paper, we investigate the neural tangent kernel (NTK)--which reveals the gradient descent dynamics of neural networks--of the multilayer perceptrons (MLP) modules in a PLM and propose to coin a lightweight PLM through NTK-approximating MLP fusion. By incorporating NTK into the compression process, MLP Fusion not only preserves the original model's output but also maintains its training dynamics. To achieve this, we reconsider the MLP as a bundle of sub-MLPs and cluster them into a given number of centroids, which can then be restored as a compressed MLP and surprisingly well approximate the NTK of the original PLM. Our approach is applicable to both standard MLP modules and Mixture-of-Experts (MoE) modules in PLMs, demonstrating its scalability and versatility. Additionally, we provide theoretical derivations to demonstrate how the proposed compression preserves the NTK. Extensive experiments of PLM fine-tuning on both natural language understanding and generation tasks are provided to verify the effectiveness of MLP fusion. Our code is available at https://github.com/weitianxin/MLP_Fusion.
- Abstract(参考訳): 訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
しかし、このプロセスは、特に計算能力の低いエッジデバイスでは、高価であることが知られている。
PLM微調整の計算/メモリを削減するため、一般的な手法(例えば量子化と蒸留)が広く研究されているが、微調整に特化したワンショット圧縮技術はほとんど研究されていない。
本稿では,PLM における多層パーセプトロン (MLP) モジュールのニューラルネットワークの勾配勾配ダイナミクスを明らかにするニューラルタンジェントカーネル (NTK) について検討し,NTK 近似 MLP 融合による軽量 PLM の創出を提案する。
NTKを圧縮プロセスに組み込むことで、MLP Fusionは元のモデルの出力を保存するだけでなく、トレーニングのダイナミクスも維持する。
そこで我々は、MLPをサブMLPのバンドルとして再考し、それらを所定の数のセンタロイドに分類し、圧縮MLPとして復元し、元のPLMのNTKを驚くほどよく近似させることができる。
提案手法はPLMの標準MPPモジュールとMixture-of-Experts (MoE)モジュールの両方に適用でき,そのスケーラビリティと汎用性を示す。
さらに,提案した圧縮がNTKをいかに保存するかを示す理論的導出を行う。
MLP融合の有効性を検証するために,自然言語理解と生成タスクの両面におけるPLM微調整の広範囲な実験を行った。
私たちのコードはhttps://github.com/weitianxin/MLP_Fusion.comで利用可能です。
関連論文リスト
- FSMLP: Modelling Channel Dependencies With Simplex Theory Based Multi-Layer Perceptions In Frequency Domain [16.693117400535833]
時系列予測(TSF)は、Webデータ分析、エネルギー消費予測、天気予報など、さまざまな領域において重要な役割を果たす。
MLP(Multi-Layer Perceptrons)は、一時的依存関係をキャプチャするのに軽量で効果的であるが、チャネル間の依存関係をモデル化する場合、過度に適合する傾向がある。
本手法では, モデルが単純なパターンを学習し, 過度な値に収まらないようにする。
論文 参考訳(メタデータ) (2024-12-02T16:04:15Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Training Multilayer Perceptrons by Sampling with Quantum Annealers [38.046974698940545]
視覚応用のための多くのニューラルネットワークはフィードフォワード構造である。
バックプロパゲーションは現在、教師あり学習のための訓練に最も効果的なテクニックである。
論文 参考訳(メタデータ) (2023-03-22T07:40:01Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Using Fitness Dependent Optimizer for Training Multi-layer Perceptron [13.280383503879158]
本研究は、最近提案されたFDO(Fitness Dependent)に依存する新しいトレーニングアルゴリズムを提案する。
このアルゴリズムの安定性は、探索と搾取の両方の段階で検証され、性能が保証されている。
FDOをトレーナーとして使用するアプローチは、データセット上で異なるトレーナーを使用して他のアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-03T10:23:17Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - MLP Architectures for Vision-and-Language Modeling: An Empirical Study [91.6393550858739]
視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
論文 参考訳(メタデータ) (2021-12-08T18:26:19Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - Neural Collaborative Filtering vs. Matrix Factorization Revisited [20.237381375881228]
埋め込みベースのモデルは、コラボレーションフィルタリングにおける10年以上の最先端技術である。
近年、ドット積を多層パーセプトロン(MLP)のような学習された類似性に置き換えることが提案されている。
論文 参考訳(メタデータ) (2020-05-19T18:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。