論文の概要: MiniALBERT: Model Distillation via Parameter-Efficient Recursive
Transformers
- arxiv url: http://arxiv.org/abs/2210.06425v2
- Date: Sun, 30 Apr 2023 13:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 19:30:35.430482
- Title: MiniALBERT: Model Distillation via Parameter-Efficient Recursive
Transformers
- Title(参考訳): MiniALBERT:パラメータ効率の良い再帰変換器によるモデル蒸留
- Authors: Mohammadmahdi Nouriborji, Omid Rohanian, Samaneh Kouchaki, David A.
Clifton
- Abstract要約: MiniALBERTは、完全にパラメータ化されたLM(BERTなど)の知識をコンパクトな再帰的な学生に変換する技術である。
提案したモデルを,様々な一般的・バイオメディカルなNLPタスクで検証し,その有効性を実証し,最先端および既存のコンパクトモデルと比較した。
- 参考スコア(独自算出の注目度): 12.432191400869002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Language Models (LMs) have become an integral part of Natural
Language Processing (NLP) in recent years, due to their superior performance in
downstream applications. In spite of this resounding success, the usability of
LMs is constrained by computational and time complexity, along with their
increasing size; an issue that has been referred to as `overparameterisation'.
Different strategies have been proposed in the literature to alleviate these
problems, with the aim to create effective compact models that nearly match the
performance of their bloated counterparts with negligible performance losses.
One of the most popular techniques in this area of research is model
distillation. Another potent but underutilised technique is cross-layer
parameter sharing. In this work, we combine these two strategies and present
MiniALBERT, a technique for converting the knowledge of fully parameterised LMs
(such as BERT) into a compact recursive student. In addition, we investigate
the application of bottleneck adapters for layer-wise adaptation of our
recursive student, and also explore the efficacy of adapter tuning for
fine-tuning of compact models. We test our proposed models on a number of
general and biomedical NLP tasks to demonstrate their viability and compare
them with the state-of-the-art and other existing compact models. All the codes
used in the experiments are available at
https://github.com/nlpie-research/MiniALBERT. Our pre-trained compact models
can be accessed from https://huggingface.co/nlpie.
- Abstract(参考訳): 学習済み言語モデル(lms)は、下流アプリケーションの性能が優れているため、近年では自然言語処理(nlp)の不可欠な部分となっている。
この再帰的な成功にもかかわらず、LMのユーザビリティは計算量と時間的複雑さ、そしてそのサイズの増加によって制限されている;これは'オーバーパラメトリゼーション'と呼ばれる問題である。
これらの問題を緩和するための異なる戦略が文献で提案されており、肥大化したコンペティタのパフォーマンスにほぼマッチする効果的なコンパクトモデルを作成することを目的としている。
この分野で最も人気のある技術は、モデル蒸留である。
もう1つの強力だが未使用のテクニックは、層間パラメータ共有である。
本研究では,これら2つの戦略と,完全パラメータ化されたlms(bertなど)の知識をコンパクトな再帰的学生に変換する手法であるminialbertを組み合わせる。
さらに, 学生の層順適応に対するボトルネックアダプタの適用について検討し, コンパクトモデルの微調整におけるアダプタチューニングの有効性について検討した。
提案するモデルについて,生物医学的nlpタスクで検証し,その実現可能性を示し,最新モデルや既存のコンパクトモデルと比較した。
実験で使用されたコードは、https://github.com/nlpie-research/MiniALBERT.comで公開されている。
トレーニング済みのコンパクトモデルは、https://huggingface.co/nlpieからアクセスできます。
関連論文リスト
- Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - READ: Recurrent Adaptation of Large Transformers [6.0031415516812725]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Adapting by Pruning: A Case Study on BERT [9.963251767416967]
対象タスクの性能を最適化するために,事前学習したモデルの神経接続をpruneするプラニングにより適応する新しいモデル適応パラダイムを提案する。
本稿では, 最適化問題として適応分割法を定式化し, モデル作成のための効率的なアルゴリズムを提案する。
以上の結果から,提案手法は細調整フルモデルと同等の性能を示しながら,BERTの最大50%の重み付けが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-05-07T15:51:08Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - Compressing Large-Scale Transformer-Based Models: A Case Study on BERT [41.04066537294312]
事前訓練されたTransformerベースのモデルは、様々な自然言語処理(NLP)タスクに対して最先端のパフォーマンスを達成した。
これらのモデルは数十億のパラメータを持ち、そのため、リソース不足と計算集約が多すぎて、低機能デバイスやアプリケーションに適合しない。
これに対する潜在的な対策の1つはモデル圧縮であり、多くの研究が注目されている。
論文 参考訳(メタデータ) (2020-02-27T09:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。