論文の概要: NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning
- arxiv url: http://arxiv.org/abs/2307.08941v2
- Date: Sat, 5 Aug 2023 01:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 20:35:49.796615
- Title: NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning
- Title(参考訳): 効率的な言語モデルの微調整のためのntk近似mlp融合
- Authors: Tianxin Wei, Zeming Guo, Yifan Chen, Jingrui He
- Abstract要約: 訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
我々は、NTK近似モジュールを融合して軽量PLMを作成することを提案する。
- 参考スコア(独自算出の注目度): 40.994306592119266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning a pre-trained language model (PLM) emerges as the predominant
strategy in many natural language processing applications. However, even
fine-tuning the PLMs and doing inference are expensive, especially on edge
devices with low computing power. Some general approaches (e.g. quantization
and distillation) have been widely studied to reduce the compute/memory of PLM
fine-tuning, while very few one-shot compression techniques are explored. In
this paper, we investigate the neural tangent kernel (NTK)--which reveals the
gradient descent dynamics of neural networks--of the multilayer perceptrons
(MLP) modules in a PLM and propose to coin a lightweight PLM through
NTK-approximating MLP fusion. To achieve this, we reconsider the MLP as a
bundle of sub-MLPs, and cluster them into a given number of centroids, which
can then be restored as a compressed MLP and surprisingly shown to well
approximate the NTK of the original PLM. Extensive experiments of PLM
fine-tuning on both natural language understanding (NLU) and generation (NLG)
tasks are provided to verify the effectiveness of the proposed method MLP
fusion. Our code is available at https://github.com/weitianxin/MLP_Fusion.
- Abstract(参考訳): 訓練済み言語モデル(PLM)の微調整は、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
しかし、特に計算能力の低いエッジデバイスでは、PLMの微調整や推論も高価である。
いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微調整の計算/メモリを削減するために広く研究され、一方、単発圧縮技術はほとんど研究されていない。
本稿では,PLM における多層パーセプトロン (MLP) モジュールのニューラルネットワークの勾配勾配ダイナミクスを明らかにするニューラルタンジェントカーネル (NTK) について検討し,NTK 近似 MLP 融合による軽量 PLM の創出を提案する。
そこで我々は、MLPをサブMLPのバンドルとして再考し、それらを所定の数のセンタロイドに分類し、圧縮MLPとして復元し、元のPLMのNTKを驚くほどよく近似させることを示した。
提案手法の有効性を検証するため,自然言語理解(NLU)と生成(NLG)の両タスクを用いたPLM微調整実験を行った。
私たちのコードはhttps://github.com/weitianxin/MLP_Fusion.comで利用可能です。
関連論文リスト
- MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Improved Implicit Neural Representation with Fourier Reparameterized Training [21.93903328906775]
Inlicit Neural Representation (INR)は、近年様々なコンピュータビジョンタスクにおいて、強力な表現パラダイムとして成功している。
既存の手法では、INRの精度を向上させるため、位置符号化や周期的アクティベーション関数といった高度な手法が研究されている。
論文 参考訳(メタデータ) (2024-01-15T00:40:41Z) - SiT-MLP: A Simple MLP with Point-wise Topology Feature Learning for Skeleton-based Action Recognition [9.673505408890435]
グラフネットワーク(GCN)は骨格に基づく行動認識において顕著な性能を発揮している。
従来のGCNベースの手法は、精巧な人間の先行を過度に頼り、複雑な特徴集約機構を構築した。
本研究では骨格に基づく行動認識のための新しいモデルSiT-MLPを提案する。
論文 参考訳(メタデータ) (2023-08-30T13:20:54Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z) - Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed
Representations [51.75960511842552]
事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。
オーバーフィッティングを減らすために,PLMの隠れ表現を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:39:29Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Using Fitness Dependent Optimizer for Training Multi-layer Perceptron [13.280383503879158]
本研究は、最近提案されたFDO(Fitness Dependent)に依存する新しいトレーニングアルゴリズムを提案する。
このアルゴリズムの安定性は、探索と搾取の両方の段階で検証され、性能が保証されている。
FDOをトレーナーとして使用するアプローチは、データセット上で異なるトレーナーを使用して他のアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-03T10:23:17Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。