論文の概要: Neural Architecture Search for Effective Teacher-Student Knowledge
Transfer in Language Models
- arxiv url: http://arxiv.org/abs/2303.09639v1
- Date: Thu, 16 Mar 2023 20:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 16:28:52.024206
- Title: Neural Architecture Search for Effective Teacher-Student Knowledge
Transfer in Language Models
- Title(参考訳): 言語モデルにおける効果的な教師学習知識伝達のためのニューラルネットワーク探索
- Authors: Aashka Trivedi, Takuma Udagawa, Michele Merler, Rameswar Panda, Yousef
El-Kurdi, Bishwaranjan Bhattacharjee
- Abstract要約: 本稿では,教師からの蒸留に最適な学生モデルを見つけるために,ニューラルネットワーク探索(NAS)を用いたKD-NASを提案する。
NASは知識蒸留プロセスによって指導され、教師から蒸留のための最適な学生モデルを見つける。
- 参考スコア(独自算出の注目度): 17.32574753120183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained language models have achieved state-of-the-art results on a
variety of downstream tasks. Knowledge Distillation (KD) of a smaller student
model addresses their inefficiency, allowing for deployment in
resource-constraint environments. KD however remains ineffective, as the
student is manually selected from a set of existing options already pre-trained
on large corpora, a sub-optimal choice within the space of all possible student
architectures. This paper proposes KD-NAS, the use of Neural Architecture
Search (NAS) guided by the Knowledge Distillation process to find the optimal
student model for distillation from a teacher, for a given natural language
task. In each episode of the search process, a NAS controller predicts a reward
based on a combination of accuracy on the downstream task and latency of
inference. The top candidate architectures are then distilled from the teacher
on a small proxy set. Finally the architecture(s) with the highest reward is
selected, and distilled on the full downstream task training set. When
distilling on the MNLI task, our KD-NAS model produces a 2 point improvement in
accuracy on GLUE tasks with equivalent GPU latency with respect to a
hand-crafted student architecture available in the literature. Using Knowledge
Distillation, this model also achieves a 1.4x speedup in GPU Latency (3.2x
speedup on CPU) with respect to a BERT-Base Teacher, while maintaining 97%
performance on GLUE Tasks (without CoLA). We also obtain an architecture with
equivalent performance as the hand-crafted student model on the GLUE benchmark,
but with a 15% speedup in GPU latency (20% speedup in CPU latency) and 0.8
times the number of parameters
- Abstract(参考訳): 大規模な事前訓練された言語モデルは、様々な下流タスクで最先端の結果を得た。
より小さな学生モデルの知識蒸留(KD)は、リソース制約環境への展開を可能にする非効率性に対処する。
しかしながら、KDは、学生が既に大きなコーパスで事前訓練済みの既存のオプションセットから手動で選択されるため、すべての可能な学生アーキテクチャーの空間における準最適選択である。
本稿では,知識蒸留プロセスによって指導されるニューラルネットワーク探索(NAS)を用いて,与えられた自然言語タスクに対して,教師の蒸留に最適な学生モデルを求めるKD-NASを提案する。
検索プロセスの各エピソードにおいて、NASコントローラは、下流タスクの精度と推論の待ち時間の組み合わせに基づいて報酬を予測する。
最上位候補アーキテクチャは、小さなプロキシセットで教師から蒸留される。
最後に、最も報酬の高いアーキテクチャが選択され、下流タスクトレーニングセットで蒸留される。
我々のKD-NASモデルは,MNLIタスクを蒸留すると,文献で利用可能な手作りの学生アーキテクチャに対して,同等のGPUレイテンシでGLUEタスクの精度を2ポイント向上させる。
知識蒸留(Knowledge Distillation)を用いることで、BERTベースの教師に対して、CPU上でのGPUレイテンシ(3.2倍)の1.4倍の高速化を実現し、GLUEタスク(CoLAなしで)では97%のパフォーマンスを維持している。
また、GLUEベンチマークで手作りの学生モデルと同等の性能を持つアーキテクチャも得るが、GPUレイテンシの15%高速化(CPUレイテンシの20%高速化)とパラメータの0.8倍のパラメータを持つ。
関連論文リスト
- SalNAS: Efficient Saliency-prediction Neural Architecture Search with self-knowledge distillation [7.625269122161064]
近年の深部畳み込み型ニューラルネットワークの進歩により,サリエンシ予測の性能が大幅に向上した。
本稿では,2つのコントリビューションを持つ有能性予測のためのニューラルアーキテクチャ検索フレームワークを提案する。
自己KDを利用することで、SalNASは、ほとんどの評価ルーリックにおいて、他の最先端の精度予測モデルより優れている。
論文 参考訳(メタデータ) (2024-07-29T14:48:34Z) - DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。
提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。
当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文 参考訳(メタデータ) (2024-03-02T22:16:47Z) - Meta-prediction Model for Distillation-Aware NAS on Unseen Datasets [55.2118691522524]
Distillation-Aware Neural Architecture Search (DaNAS) は、最適な学生アーキテクチャを探すことを目的としている。
本稿では,あるアーキテクチャの最終的な性能をデータセット上で予測できる,蒸留対応のメタ精度予測モデルDaSSを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:00:35Z) - AutoDistil: Few-shot Task-agnostic Neural Architecture Search for
Distilling Large Language Models [121.22644352431199]
ニューラルアーキテクチャサーチ (NAS) を用いて、大容量モデルから可変コストで複数の圧縮された学生を自動的に抽出する。
現在の作業では、ウェイトシェアリングを備えた数百万の作業からなる1つのSuperLMをトレーニングしています。
最先端のKDおよびNAS手法に対するGLUEベンチマーク実験は、AutoDistilが先行圧縮技術より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T06:13:04Z) - AUTOKD: Automatic Knowledge Distillation Into A Student Architecture
Family [10.51711053229702]
ディープラーニングの最先端の成果は、より大きなモデルを使用することによって、着実に改善されている。
知識蒸留(KD)は理論上、小学生がより大きな教師モデルをエミュレートすることを可能にするが、実際には優れた学生アーキテクチャを選択するにはかなりの専門知識が必要である。
本稿では,教師の学習に長けているという特性を共有する学生建築の家族を探すことを提案する。
論文 参考訳(メタデータ) (2021-11-05T15:20:37Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Joint-DetNAS: Upgrade Your Detector with NAS, Pruning and Dynamic
Distillation [49.421099172544196]
オブジェクト検出のための統一NASフレームワークであるJoint-DetNASを提案する。
Joint-DetNASは、Neural Architecture Search、pruning、Knowledge Distillationの3つの重要なコンポーネントを統合している。
提案アルゴリズムは, 外部学習を伴わずに, 高い性能で直接出力する。
論文 参考訳(メタデータ) (2021-05-27T07:25:43Z) - PONAS: Progressive One-shot Neural Architecture Search for Very
Efficient Deployment [9.442139459221783]
我々は,進歩的NASとワンショット手法の利点を組み合わせた,プログレッシブワンショットニューラルアーキテクチャサーチ(PONAS)を提案する。
PONASは10秒で特別なネットワークのアーキテクチャを見つけることができる。
ImageNetの分類では、75.2%のトップ1の精度が得られる。
論文 参考訳(メタデータ) (2020-03-11T05:00:31Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。