論文の概要: AutoDistil: Few-shot Task-agnostic Neural Architecture Search for
Distilling Large Language Models
- arxiv url: http://arxiv.org/abs/2201.12507v1
- Date: Sat, 29 Jan 2022 06:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 16:28:21.182858
- Title: AutoDistil: Few-shot Task-agnostic Neural Architecture Search for
Distilling Large Language Models
- Title(参考訳): AutoDistil: 大きな言語モデルを蒸留するためのタスク非依存ニューラルネットワーク検索
- Authors: Dongkuan Xu, Subhabrata Mukherjee, Xiaodong Liu, Debadeepta Dey,
Wenhui Wang, Xiang Zhang, Ahmed Hassan Awadallah, Jianfeng Gao
- Abstract要約: ニューラルアーキテクチャサーチ (NAS) を用いて、大容量モデルから可変コストで複数の圧縮された学生を自動的に抽出する。
現在の作業では、ウェイトシェアリングを備えた数百万の作業からなる1つのSuperLMをトレーニングしています。
最先端のKDおよびNAS手法に対するGLUEベンチマーク実験は、AutoDistilが先行圧縮技術より優れていることを示す。
- 参考スコア(独自算出の注目度): 121.22644352431199
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge distillation (KD) methods compress large models into smaller
students with manually-designed student architectures given pre-specified
computational cost. This requires several trials to find a viable student, and
further repeating the process for each student or computational budget change.
We use Neural Architecture Search (NAS) to automatically distill several
compressed students with variable cost from a large model. Current works train
a single SuperLM consisting of millions of subnetworks with weight-sharing,
resulting in interference between subnetworks of different sizes. Our framework
AutoDistil addresses above challenges with the following steps: (a)
Incorporates inductive bias and heuristics to partition Transformer search
space into K compact sub-spaces (K=3 for typical student sizes of base, small
and tiny); (b) Trains one SuperLM for each sub-space using task-agnostic
objective (e.g., self-attention distillation) with weight-sharing of students;
(c) Lightweight search for the optimal student without re-training. Fully
task-agnostic training and search allow students to be reused for fine-tuning
on any downstream task. Experiments on GLUE benchmark against state-of-the-art
KD and NAS methods demonstrate AutoDistil to outperform leading compression
techniques with upto 2.7x reduction in computational cost and negligible loss
in task performance.
- Abstract(参考訳): 知識蒸留法 (KD) は、手作業で設計された学生アーキテクチャを用いて、より小さな学生に大規模なモデルを圧縮する。
これは、実行可能な学生を見つけるためにいくつかの試行が必要であり、さらに各学生や計算予算の変更のプロセスを繰り返す必要がある。
ニューラルアーキテクチャサーチ(NAS)を用いて,大規模モデルから様々なコストで圧縮された学生を自動的に抽出する。
現在の作業では、数百万のサブネットワークからなる単一のSuperLMをトレーニングし、結果として異なるサイズのサブネットワーク間で干渉する。
当社のフレームワークであるAutoDistilは、以下のステップで上記の課題に対処しています。
(a)変圧器探索空間をKコンパクトな部分空間に分割するために帰納バイアスとヒューリスティックスを組み込む(基本、小、小の典型的な学生サイズのK=3)
b) 学生の減量分担を伴うタスク非依存目的(例えば、セルフアテンション蒸留)を用いて、サブスペースごとに1つのスーパーlmを訓練すること。
(c) 再学習を行わずに最適な学生を探すこと。
完全にタスクに依存しないトレーニングと検索により、ダウンストリームタスクの微調整に学生を再利用することができる。
最新のKD法とNAS法に対するGLUEベンチマークの実験では、AutoDistilは計算コストの最大2.7倍の削減とタスク性能の無視的な損失を伴い、先行圧縮技術を上回る性能を示す。
関連論文リスト
- DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。
提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。
当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文 参考訳(メタデータ) (2024-03-02T22:16:47Z) - RdimKD: Generic Distillation Paradigm by Dimensionality Reduction [16.977144350795488]
知識蒸留(KD)は、リソース制限されたデバイス上で高度なディープニューラルネットワークを実行する最も有望な圧縮技術のひとつである。
本研究では,DIMensionality Reduction KD(RdimKD)と呼ばれる,KDタスクの抽象的,汎用的なパラダイムを提案する。
RdimKD は次元の減少にのみ依存しており、L2 の損失に非常に小さな修正を加えている。
論文 参考訳(メタデータ) (2023-12-14T07:34:08Z) - Neural Architecture Search for Effective Teacher-Student Knowledge
Transfer in Language Models [21.177293243968744]
知識蒸留(KD)を小さな学生モデルに組み込むと、その非効率性に対処し、リソースに制約のある環境への展開を可能にする。
我々は,KDが指導する多言語KD-NAS(Neural Architecture Search, ニューラルアーキテクチャサーチ)を開発し,多言語教師のタスク蒸留に最適な学生アーキテクチャを求める。
我々のKD-NAS学生モデルは,多層型隠れ状態蒸留法を用いて,XLM-Roberta ベース教師と比較して,CPU推論の7倍の高速化を実現し,90%の性能を維持した。
論文 参考訳(メタデータ) (2023-03-16T20:39:44Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Efficient Architecture Search for Diverse Tasks [29.83517145790238]
多様な問題を効率的に解くために,ニューラルネットワーク探索(NAS)について検討する。
本稿では,畳み込みのフーリエ対角化を用いた混合動作を計算する,微分可能なNASアルゴリズムであるDASHを紹介する。
DASH-Bench-360は多様な領域におけるNASベンチマークのために設計された10のタスクスイートである。
論文 参考訳(メタデータ) (2022-04-15T17:21:27Z) - Elastic Architecture Search for Diverse Tasks with Different Resources [87.23061200971912]
本研究では,異なるリソースを持つ多様なタスクを効率的に配置する上で,クラス群に対応するリソース制約や関心のタスクをテスト時に動的に指定する,新たな課題について検討する。
従来のNASアプローチでは、全てのクラスのアーキテクチャを同時に設計することを模索しており、これはいくつかの個別のタスクに最適ではないかもしれない。
本稿では、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T00:54:27Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Joint-DetNAS: Upgrade Your Detector with NAS, Pruning and Dynamic
Distillation [49.421099172544196]
オブジェクト検出のための統一NASフレームワークであるJoint-DetNASを提案する。
Joint-DetNASは、Neural Architecture Search、pruning、Knowledge Distillationの3つの重要なコンポーネントを統合している。
提案アルゴリズムは, 外部学習を伴わずに, 高い性能で直接出力する。
論文 参考訳(メタデータ) (2021-05-27T07:25:43Z) - Teachers Do More Than Teach: Compressing Image-to-Image Models [35.40756344110666]
generative adversarial networks (gans) は高忠実度画像の生成に多大な成功を収めている。
ganは膨大な計算コストと大量のメモリ使用量のために低効率に苦しむ。
圧縮GANの最近の取り組みは、小型発電機の取得の顕著な進歩を示しています。
論文 参考訳(メタデータ) (2021-03-05T04:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。