論文の概要: Large-scale Knowledge Distillation with Elastic Heterogeneous Computing
Resources
- arxiv url: http://arxiv.org/abs/2207.06667v1
- Date: Thu, 14 Jul 2022 05:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 03:20:13.793538
- Title: Large-scale Knowledge Distillation with Elastic Heterogeneous Computing
Resources
- Title(参考訳): 弾性異種計算資源を用いた大規模知識蒸留
- Authors: Ji Liu, Daxiang Dong, Xi Wang, An Qin, Xingjian Li, Patrick Valduriez,
Dejing Dou, Dianhai Yu
- Abstract要約: 知識蒸留のための弾性深層学習フレームワーク,すなわちEDL-Distを提案する。
EDL-Distの利点は3倍であり、第一に推論とトレーニングプロセスが分離されている。第二に、弾力性のある計算資源を利用して効率を向上させることができる。
本研究では,EDL-Distのスループットがベースライン法よりも最大3.125倍高速であることを示す。
- 参考スコア(独自算出の注目度): 42.23235662358244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although more layers and more parameters generally improve the accuracy of
the models, such big models generally have high computational complexity and
require big memory, which exceed the capacity of small devices for inference
and incurs long training time. In addition, it is difficult to afford long
training time and inference time of big models even in high performance
servers, as well. As an efficient approach to compress a large deep model (a
teacher model) to a compact model (a student model), knowledge distillation
emerges as a promising approach to deal with the big models. Existing knowledge
distillation methods cannot exploit the elastic available computing resources
and correspond to low efficiency. In this paper, we propose an Elastic Deep
Learning framework for knowledge Distillation, i.e., EDL-Dist. The advantages
of EDL-Dist are three-fold. First, the inference and the training process is
separated. Second, elastic available computing resources can be utilized to
improve the efficiency. Third, fault-tolerance of the training and inference
processes is supported. We take extensive experimentation to show that the
throughput of EDL-Dist is up to 3.125 times faster than the baseline method
(online knowledge distillation) while the accuracy is similar or higher.
- Abstract(参考訳): レイヤーが増え、パラメータが増えてモデルの精度が向上するが、そのような大きなモデルは一般に高い計算複雑性を持ち、推論のために小さなデバイスの容量を超える大きなメモリを必要とする。
また,高性能サーバにおいても,大規模モデルの長時間のトレーニング時間や推論時間を確保することは困難である。
大規模深層モデル(教師モデル)をコンパクトモデル(学生モデル)に圧縮する効率的なアプローチとして、大きなモデルを扱うための有望なアプローチとして知識蒸留が出現する。
既存の知識蒸留法は弾力性のある計算資源を活用できず、低効率に対応している。
本稿では,知識蒸留のためのElastic Deep Learningフレームワーク,すなわちEDL-Distを提案する。
EDL-Distの利点は3倍である。
まず、推論とトレーニングプロセスが分離される。
第二に、弾力性のある計算資源を利用して効率を向上させることができる。
第三に、トレーニングと推論プロセスのフォールトトレランスがサポートされている。
EDL-Distのスループットはベースライン法(オンライン知識蒸留)よりも最大3.125倍速く,精度は同等かそれ以上であることを示す。
関連論文リスト
- ssProp: Energy-Efficient Training for Convolutional Neural Networks with Scheduled Sparse Back Propagation [4.77407121905745]
バックプロパゲーション(BP)は、ディープラーニングモデルをトレーニングする際の計算コストの主要な源泉である。
ディープラーニングアーキテクチャにシームレスに統合できる汎用的でエネルギー効率の良い畳み込みモジュールを提案する。
論文 参考訳(メタデータ) (2024-08-22T17:22:59Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Training Large Language Models Efficiently with Sparsity and Dataflow [3.1780195670658378]
本稿では,大言語モデル(130億GPT)における疎度とデータフローを用いたエンドツーエンドのトレーニングフローを示す。
我々は,GPT 13Bを高密度のGPT 13Bモデルと同じ品質でトレーニングできる一方で,高密度のA100ベースライン上でのエンドツーエンドの高速化を4.5倍に達成できることを示す。
論文 参考訳(メタデータ) (2023-04-11T21:37:13Z) - Multi-teacher knowledge distillation as an effective method for
compressing ensembles of neural networks [0.0]
大規模深層モデルは非常に成功したが、膨大な計算複雑性と巨大なストレージ要件により、リアルタイムアプリケーションでは実装が困難である。
単一モデルの重み空間に全アンサンブルモデルを圧縮できる改良された知識蒸留フレームワークを提案する。
知識蒸留は,1つの学生モデルで複数の教師の知識を集約し,同じ計算量で,標準手法で訓練したモデルと比較して,優れた性能のモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-14T17:40:36Z) - DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and
Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。
GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。
GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文 参考訳(メタデータ) (2022-12-07T12:27:28Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文 参考訳(メタデータ) (2020-06-09T21:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。