Fugu-MT 論文翻訳(概要): Neural Architecture Search for Effective Teacher-Student Knowledge Transfer in Language Models

論文の概要: Neural Architecture Search for Effective Teacher-Student Knowledge Transfer in Language Models

arxiv url: http://arxiv.org/abs/2303.09639v1
Date: Thu, 16 Mar 2023 20:39:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-20 16:28:52.024206
Title: Neural Architecture Search for Effective Teacher-Student Knowledge Transfer in Language Models
Title（参考訳）: 言語モデルにおける効果的な教師学習知識伝達のためのニューラルネットワーク探索
Authors: Aashka Trivedi, Takuma Udagawa, Michele Merler, Rameswar Panda, Yousef El-Kurdi, Bishwaranjan Bhattacharjee
Abstract要約: 本稿では,教師からの蒸留に最適な学生モデルを見つけるために,ニューラルネットワーク探索(NAS)を用いたKD-NASを提案する。 NASは知識蒸留プロセスによって指導され、教師から蒸留のための最適な学生モデルを見つける。
参考スコア（独自算出の注目度）: 17.32574753120183
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large pre-trained language models have achieved state-of-the-art results on a variety of downstream tasks. Knowledge Distillation (KD) of a smaller student model addresses their inefficiency, allowing for deployment in resource-constraint environments. KD however remains ineffective, as the student is manually selected from a set of existing options already pre-trained on large corpora, a sub-optimal choice within the space of all possible student architectures. This paper proposes KD-NAS, the use of Neural Architecture Search (NAS) guided by the Knowledge Distillation process to find the optimal student model for distillation from a teacher, for a given natural language task. In each episode of the search process, a NAS controller predicts a reward based on a combination of accuracy on the downstream task and latency of inference. The top candidate architectures are then distilled from the teacher on a small proxy set. Finally the architecture(s) with the highest reward is selected, and distilled on the full downstream task training set. When distilling on the MNLI task, our KD-NAS model produces a 2 point improvement in accuracy on GLUE tasks with equivalent GPU latency with respect to a hand-crafted student architecture available in the literature. Using Knowledge Distillation, this model also achieves a 1.4x speedup in GPU Latency (3.2x speedup on CPU) with respect to a BERT-Base Teacher, while maintaining 97% performance on GLUE Tasks (without CoLA). We also obtain an architecture with equivalent performance as the hand-crafted student model on the GLUE benchmark, but with a 15% speedup in GPU latency (20% speedup in CPU latency) and 0.8 times the number of parameters
Abstract（参考訳）: 大規模な事前訓練された言語モデルは、様々な下流タスクで最先端の結果を得た。より小さな学生モデルの知識蒸留(KD)は、リソース制約環境への展開を可能にする非効率性に対処する。しかしながら、KDは、学生が既に大きなコーパスで事前訓練済みの既存のオプションセットから手動で選択されるため、すべての可能な学生アーキテクチャーの空間における準最適選択である。本稿では,知識蒸留プロセスによって指導されるニューラルネットワーク探索(NAS)を用いて,与えられた自然言語タスクに対して,教師の蒸留に最適な学生モデルを求めるKD-NASを提案する。検索プロセスの各エピソードにおいて、NASコントローラは、下流タスクの精度と推論の待ち時間の組み合わせに基づいて報酬を予測する。最上位候補アーキテクチャは、小さなプロキシセットで教師から蒸留される。最後に、最も報酬の高いアーキテクチャが選択され、下流タスクトレーニングセットで蒸留される。我々のKD-NASモデルは,MNLIタスクを蒸留すると,文献で利用可能な手作りの学生アーキテクチャに対して,同等のGPUレイテンシでGLUEタスクの精度を2ポイント向上させる。知識蒸留(Knowledge Distillation)を用いることで、BERTベースの教師に対して、CPU上でのGPUレイテンシ(3.2倍)の1.4倍の高速化を実現し、GLUEタスク(CoLAなしで)では97%のパフォーマンスを維持している。また、GLUEベンチマークで手作りの学生モデルと同等の性能を持つアーキテクチャも得るが、GPUレイテンシの15%高速化(CPUレイテンシの20%高速化)とパラメータの0.8倍のパラメータを持つ。

関連論文リスト

SalNAS: Efficient Saliency-prediction Neural Architecture Search with self-knowledge distillation [7.625269122161064]
近年の深部畳み込み型ニューラルネットワークの進歩により,サリエンシ予測の性能が大幅に向上した。本稿では,2つのコントリビューションを持つ有能性予測のためのニューラルアーキテクチャ検索フレームワークを提案する。自己KDを利用することで、SalNASは、ほとんどの評価ルーリックにおいて、他の最先端の精度予測モデルより優れている。
論文参考訳（メタデータ） (2024-07-29T14:48:34Z)
A Pairwise Comparison Relation-assisted Multi-objective Evolutionary Neural Architecture Search Method with Multi-population Mechanism [56.09418231453024]
ニューラルアーキテクチャサーチ(NAS)により、研究者は広大なサーチスペースを自動的に探索し、効率的なニューラルネットワークを見つけることができる。 NASは重要なボトルネックに悩まされており、探索プロセス中に多くのアーキテクチャを評価する必要がある。 SMEM-NASは,多集団構造に基づく相互比較比較支援型多目的進化アルゴリズムである。
論文参考訳（メタデータ） (2024-07-22T12:46:22Z)
DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文参考訳（メタデータ） (2024-03-02T22:16:47Z)
Meta-prediction Model for Distillation-Aware NAS on Unseen Datasets [55.2118691522524]
Distillation-Aware Neural Architecture Search (DaNAS) は、最適な学生アーキテクチャを探すことを目的としている。本稿では,あるアーキテクチャの最終的な性能をデータセット上で予測できる,蒸留対応のメタ精度予測モデルDaSSを提案する。
論文参考訳（メタデータ） (2023-05-26T14:00:35Z)
AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models [121.22644352431199]
ニューラルアーキテクチャサーチ (NAS) を用いて、大容量モデルから可変コストで複数の圧縮された学生を自動的に抽出する。現在の作業では、ウェイトシェアリングを備えた数百万の作業からなる1つのSuperLMをトレーニングしています。最先端のKDおよびNAS手法に対するGLUEベンチマーク実験は、AutoDistilが先行圧縮技術より優れていることを示す。
論文参考訳（メタデータ） (2022-01-29T06:13:04Z)
AUTOKD: Automatic Knowledge Distillation Into A Student Architecture Family [10.51711053229702]
ディープラーニングの最先端の成果は、より大きなモデルを使用することによって、着実に改善されている。知識蒸留(KD)は理論上、小学生がより大きな教師モデルをエミュレートすることを可能にするが、実際には優れた学生アーキテクチャを選択するにはかなりの専門知識が必要である。本稿では,教師の学習に長けているという特性を共有する学生建築の家族を探すことを提案する。
論文参考訳（メタデータ） (2021-11-05T15:20:37Z)
How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文参考訳（メタデータ） (2021-10-22T21:30:53Z)
Joint-DetNAS: Upgrade Your Detector with NAS, Pruning and Dynamic Distillation [49.421099172544196]
オブジェクト検出のための統一NASフレームワークであるJoint-DetNASを提案する。 Joint-DetNASは、Neural Architecture Search、pruning、Knowledge Distillationの3つの重要なコンポーネントを統合している。提案アルゴリズムは, 外部学習を伴わずに, 高い性能で直接出力する。
論文参考訳（メタデータ） (2021-05-27T07:25:43Z)
PONAS: Progressive One-shot Neural Architecture Search for Very Efficient Deployment [9.442139459221783]
我々は,進歩的NASとワンショット手法の利点を組み合わせた,プログレッシブワンショットニューラルアーキテクチャサーチ(PONAS)を提案する。 PONASは10秒で特別なネットワークのアーキテクチャを見つけることができる。 ImageNetの分類では、75.2%のトップ1の精度が得られる。
論文参考訳（メタデータ） (2020-03-11T05:00:31Z)
DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文参考訳（メタデータ） (2019-05-28T06:35:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。