論文の概要: MiniALBERT: Model Distillation via Parameter-Efficient Recursive
Transformers
- arxiv url: http://arxiv.org/abs/2210.06425v2
- Date: Sun, 30 Apr 2023 13:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 19:30:35.430482
- Title: MiniALBERT: Model Distillation via Parameter-Efficient Recursive
Transformers
- Title(参考訳): MiniALBERT:パラメータ効率の良い再帰変換器によるモデル蒸留
- Authors: Mohammadmahdi Nouriborji, Omid Rohanian, Samaneh Kouchaki, David A.
Clifton
- Abstract要約: MiniALBERTは、完全にパラメータ化されたLM(BERTなど)の知識をコンパクトな再帰的な学生に変換する技術である。
提案したモデルを,様々な一般的・バイオメディカルなNLPタスクで検証し,その有効性を実証し,最先端および既存のコンパクトモデルと比較した。
- 参考スコア(独自算出の注目度): 12.432191400869002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Language Models (LMs) have become an integral part of Natural
Language Processing (NLP) in recent years, due to their superior performance in
downstream applications. In spite of this resounding success, the usability of
LMs is constrained by computational and time complexity, along with their
increasing size; an issue that has been referred to as `overparameterisation'.
Different strategies have been proposed in the literature to alleviate these
problems, with the aim to create effective compact models that nearly match the
performance of their bloated counterparts with negligible performance losses.
One of the most popular techniques in this area of research is model
distillation. Another potent but underutilised technique is cross-layer
parameter sharing. In this work, we combine these two strategies and present
MiniALBERT, a technique for converting the knowledge of fully parameterised LMs
(such as BERT) into a compact recursive student. In addition, we investigate
the application of bottleneck adapters for layer-wise adaptation of our
recursive student, and also explore the efficacy of adapter tuning for
fine-tuning of compact models. We test our proposed models on a number of
general and biomedical NLP tasks to demonstrate their viability and compare
them with the state-of-the-art and other existing compact models. All the codes
used in the experiments are available at
https://github.com/nlpie-research/MiniALBERT. Our pre-trained compact models
can be accessed from https://huggingface.co/nlpie.
- Abstract(参考訳): 学習済み言語モデル(lms)は、下流アプリケーションの性能が優れているため、近年では自然言語処理(nlp)の不可欠な部分となっている。
この再帰的な成功にもかかわらず、LMのユーザビリティは計算量と時間的複雑さ、そしてそのサイズの増加によって制限されている;これは'オーバーパラメトリゼーション'と呼ばれる問題である。
これらの問題を緩和するための異なる戦略が文献で提案されており、肥大化したコンペティタのパフォーマンスにほぼマッチする効果的なコンパクトモデルを作成することを目的としている。
この分野で最も人気のある技術は、モデル蒸留である。
もう1つの強力だが未使用のテクニックは、層間パラメータ共有である。
本研究では,これら2つの戦略と,完全パラメータ化されたlms(bertなど)の知識をコンパクトな再帰的学生に変換する手法であるminialbertを組み合わせる。
さらに, 学生の層順適応に対するボトルネックアダプタの適用について検討し, コンパクトモデルの微調整におけるアダプタチューニングの有効性について検討した。
提案するモデルについて,生物医学的nlpタスクで検証し,その実現可能性を示し,最新モデルや既存のコンパクトモデルと比較した。
実験で使用されたコードは、https://github.com/nlpie-research/MiniALBERT.comで公開されている。
トレーニング済みのコンパクトモデルは、https://huggingface.co/nlpieからアクセスできます。
関連論文リスト
- Hyper Compressed Fine-Tuning of Large Foundation Models with Quantum Inspired Adapters [0.0]
emphQuantum-Inspired Adaptersは、量子機械学習文学のハミング級量子回路にインスパイアされたPEFTアプローチである。
提案するアダプタは,ベンチマークデータセットに大規模言語モデルと大規模視覚変換器を適用して検証する。
論文 参考訳(メタデータ) (2025-02-10T13:06:56Z) - FineGates: LLMs Finetuning with Compression using Stochastic Gates [7.093692674858257]
大規模言語モデル(LLM)は、高い計算要求のため、完全な微調整に重大な課題をもたらす。
低ランクのアダプタ層を学習するなど、軽量なファインタニング技術が提案されている。
本稿では,フリーズベースモデルとタスク固有適応を同時に分散するゲートに基づくアダプタモデルを提案する。
論文 参考訳(メタデータ) (2024-12-17T14:33:05Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Transformer Layer Injection: A Novel Approach for Efficient Upscaling of Large Language Models [0.0]
Transformer Layer Injection (TLI)は、大規模言語モデル(LLM)を効率的にスケールアップする新しい手法である。
提案手法は, 各K層に新しい層を注入することにより, 従来の深層アップスケーリング(DUS)技術を改善する。
論文 参考訳(メタデータ) (2024-10-15T14:41:44Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Efficient Learning With Sine-Activated Low-rank Matrices [25.12262017296922]
低ランク分解過程に正弦波関数を統合する新しい理論枠組みを提案する。
提案手法は,視覚変換器(ViT),Large Language Models(LLMs),NeRF(Neural Radiance Fields),および3次元形状モデリング(3D shape modelling)において,既存の低ランクモデルに対するプラグインとして証明されている。
論文 参考訳(メタデータ) (2024-03-28T08:58:20Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Compressing Large-Scale Transformer-Based Models: A Case Study on BERT [41.04066537294312]
事前訓練されたTransformerベースのモデルは、様々な自然言語処理(NLP)タスクに対して最先端のパフォーマンスを達成した。
これらのモデルは数十億のパラメータを持ち、そのため、リソース不足と計算集約が多すぎて、低機能デバイスやアプリケーションに適合しない。
これに対する潜在的な対策の1つはモデル圧縮であり、多くの研究が注目されている。
論文 参考訳(メタデータ) (2020-02-27T09:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。