論文の概要: Neural Architecture Search for Effective Teacher-Student Knowledge
Transfer in Language Models
- arxiv url: http://arxiv.org/abs/2303.09639v2
- Date: Fri, 13 Oct 2023 21:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 05:49:41.536172
- Title: Neural Architecture Search for Effective Teacher-Student Knowledge
Transfer in Language Models
- Title(参考訳): 言語モデルにおける効果的な教師学習知識伝達のためのニューラルネットワーク探索
- Authors: Aashka Trivedi, Takuma Udagawa, Michele Merler, Rameswar Panda, Yousef
El-Kurdi, Bishwaranjan Bhattacharjee
- Abstract要約: 知識蒸留(KD)を小さな学生モデルに組み込むと、その非効率性に対処し、リソースに制約のある環境への展開を可能にする。
我々は,KDが指導する多言語KD-NAS(Neural Architecture Search, ニューラルアーキテクチャサーチ)を開発し,多言語教師のタスク蒸留に最適な学生アーキテクチャを求める。
我々のKD-NAS学生モデルは,多層型隠れ状態蒸留法を用いて,XLM-Roberta ベース教師と比較して,CPU推論の7倍の高速化を実現し,90%の性能を維持した。
- 参考スコア(独自算出の注目度): 21.177293243968744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pretrained language models have achieved state-of-the-art results on a
variety of downstream tasks. Knowledge Distillation (KD) into a smaller student
model addresses their inefficiency, allowing for deployment in
resource-constrained environments. However, KD can be ineffective when the
student is manually selected from a set of existing options, since it can be a
sub-optimal choice within the space of all possible student architectures. We
develop multilingual KD-NAS, the use of Neural Architecture Search (NAS) guided
by KD to find the optimal student architecture for task agnostic distillation
from a multilingual teacher. In each episode of the search process, a NAS
controller predicts a reward based on the distillation loss and latency of
inference. The top candidate architectures are then distilled from the teacher
on a small proxy set. Finally the architecture(s) with the highest reward is
selected, and distilled on the full training corpus. KD-NAS can automatically
trade off efficiency and effectiveness, and recommends architectures suitable
to various latency budgets. Using our multi-layer hidden state distillation
process, our KD-NAS student model achieves a 7x speedup on CPU inference (2x on
GPU) compared to a XLM-Roberta Base Teacher, while maintaining 90% performance,
and has been deployed in 3 software offerings requiring large throughput, low
latency and deployment on CPU.
- Abstract(参考訳): 大規模な事前訓練された言語モデルは、様々な下流タスクで最先端の結果を得た。
知識蒸留(KD)を小さな学生モデルに組み込むと、その非効率性に対処し、リソースに制約のある環境への展開を可能にする。
しかしながら、KDは、学生が既存の選択肢の集合から手動で選択されるときに非効率である。
我々は,KDが指導する多言語KD-NAS(Neural Architecture Search, ニューラルアーキテクチャサーチ)を開発し,多言語教師からのタスク非依存蒸留に最適な学生アーキテクチャを求める。
探索プロセスの各エピソードにおいて、NASコントローラは、蒸留損失と推論の遅延に基づいて報酬を予測する。
最上位候補アーキテクチャは、小さなプロキシセットで教師から蒸留される。
最後に、最も報酬の高いアーキテクチャを選択し、フルトレーニングコーパスに蒸留する。
KD-NASは効率と効率を自動的にトレードオフでき、様々な遅延予算に適したアーキテクチャを推奨する。
我々のKD-NAS学生モデルは,多層型隠れ状態蒸留プロセスを用いて,XLM-Roberta Base Teacherと比較して,CPU推論の7倍の高速化を実現し,90%のパフォーマンスを維持しつつ,CPU上でのスループット,低レイテンシ,デプロイを必要とする3つのソフトウェアにデプロイされている。
関連論文リスト
- SalNAS: Efficient Saliency-prediction Neural Architecture Search with self-knowledge distillation [7.625269122161064]
近年の深部畳み込み型ニューラルネットワークの進歩により,サリエンシ予測の性能が大幅に向上した。
本稿では,2つのコントリビューションを持つ有能性予測のためのニューラルアーキテクチャ検索フレームワークを提案する。
自己KDを利用することで、SalNASは、ほとんどの評価ルーリックにおいて、他の最先端の精度予測モデルより優れている。
論文 参考訳(メタデータ) (2024-07-29T14:48:34Z) - DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。
提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。
当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文 参考訳(メタデータ) (2024-03-02T22:16:47Z) - Meta-prediction Model for Distillation-Aware NAS on Unseen Datasets [55.2118691522524]
Distillation-Aware Neural Architecture Search (DaNAS) は、最適な学生アーキテクチャを探すことを目的としている。
本稿では,あるアーキテクチャの最終的な性能をデータセット上で予測できる,蒸留対応のメタ精度予測モデルDaSSを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:00:35Z) - AutoDistil: Few-shot Task-agnostic Neural Architecture Search for
Distilling Large Language Models [121.22644352431199]
ニューラルアーキテクチャサーチ (NAS) を用いて、大容量モデルから可変コストで複数の圧縮された学生を自動的に抽出する。
現在の作業では、ウェイトシェアリングを備えた数百万の作業からなる1つのSuperLMをトレーニングしています。
最先端のKDおよびNAS手法に対するGLUEベンチマーク実験は、AutoDistilが先行圧縮技術より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T06:13:04Z) - AUTOKD: Automatic Knowledge Distillation Into A Student Architecture
Family [10.51711053229702]
ディープラーニングの最先端の成果は、より大きなモデルを使用することによって、着実に改善されている。
知識蒸留(KD)は理論上、小学生がより大きな教師モデルをエミュレートすることを可能にするが、実際には優れた学生アーキテクチャを選択するにはかなりの専門知識が必要である。
本稿では,教師の学習に長けているという特性を共有する学生建築の家族を探すことを提案する。
論文 参考訳(メタデータ) (2021-11-05T15:20:37Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Joint-DetNAS: Upgrade Your Detector with NAS, Pruning and Dynamic
Distillation [49.421099172544196]
オブジェクト検出のための統一NASフレームワークであるJoint-DetNASを提案する。
Joint-DetNASは、Neural Architecture Search、pruning、Knowledge Distillationの3つの重要なコンポーネントを統合している。
提案アルゴリズムは, 外部学習を伴わずに, 高い性能で直接出力する。
論文 参考訳(メタデータ) (2021-05-27T07:25:43Z) - PONAS: Progressive One-shot Neural Architecture Search for Very
Efficient Deployment [9.442139459221783]
我々は,進歩的NASとワンショット手法の利点を組み合わせた,プログレッシブワンショットニューラルアーキテクチャサーチ(PONAS)を提案する。
PONASは10秒で特別なネットワークのアーキテクチャを見つけることができる。
ImageNetの分類では、75.2%のトップ1の精度が得られる。
論文 参考訳(メタデータ) (2020-03-11T05:00:31Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。