論文の概要: Practical Knowledge Distillation: Using DNNs to Beat DNNs
- arxiv url: http://arxiv.org/abs/2302.12360v1
- Date: Thu, 23 Feb 2023 22:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 15:11:40.224293
- Title: Practical Knowledge Distillation: Using DNNs to Beat DNNs
- Title(参考訳): 実践的知識蒸留:DNNを駆使してDNNを打ち負かす
- Authors: Chung-Wei Lee, Pavlos Anastasios Apostolopulos, Igor L. Markov
- Abstract要約: データとモデルの蒸留、およびデータのデノイングについて検討する。
これらの技術は、勾配ブースティングモデルと特殊なDNNアーキテクチャの両方を改善する。
産業用エンドツーエンドのMLプラットフォームで毎秒4Mのプロダクション推論を行う場合,データサンプリングに基づくモデルトレーニングワークフローを開発する。
経験的評価により,提案手法の組み合わせは,世界規模で展開されている複数のプロダクションアプリケーションにおいて,先行最良モデルよりもモデル精度を一貫して向上することが示された。
- 参考スコア(独自算出の注目度): 8.121769391666547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For tabular data sets, we explore data and model distillation, as well as
data denoising. These techniques improve both gradient-boosting models and a
specialized DNN architecture. While gradient boosting is known to outperform
DNNs on tabular data, we close the gap for datasets with 100K+ rows and give
DNNs an advantage on small data sets. We extend these results with input-data
distillation and optimized ensembling to help DNN performance match or exceed
that of gradient boosting. As a theoretical justification of our practical
method, we prove its equivalence to classical cross-entropy knowledge
distillation. We also qualitatively explain the superiority of DNN ensembles
over XGBoost on small data sets. For an industry end-to-end real-time ML
platform with 4M production inferences per second, we develop a model-training
workflow based on data sampling that distills ensembles of models into a single
gradient-boosting model favored for high-performance real-time inference,
without performance loss. Empirical evaluation shows that the proposed
combination of methods consistently improves model accuracy over prior best
models across several production applications deployed worldwide.
- Abstract(参考訳): 表型データセットについては,データとモデル蒸留,およびデータデノイジングについて検討する。
これらの技術は勾配ブースティングモデルとDNNアーキテクチャの両方を改善する。
勾配向上はグラフデータ上でDNNよりも優れていることが知られているが、100K以上の行を持つデータセットのギャップを埋めて、DNNに小さなデータセットの利点を与える。
我々はこれらの結果を,DNNの性能向上に役立てるために,入力データ蒸留と最適化アンサンブルにより拡張する。
実用的な方法の理論的正当化として,古典的クロスエントロピー知識蒸留と等価性を証明する。
また,小データセット上でのXGBoostに対するDNNアンサンブルの優位性を質的に説明する。
産業用エンドツーエンドのリアルタイムMLプラットフォームにおいて、毎秒4Mのプロダクション推論を行うため、高速なリアルタイム推論に好適な1つの勾配ブースティングモデルにモデルのアンサンブルを蒸留するデータサンプリングに基づくモデル学習ワークフローを開発する。
経験的評価により,提案手法の組み合わせは,世界規模で展開されている複数のプロダクションアプリケーションにおいて,先行最良モデルよりもモデル精度を一貫して向上することが示された。
関連論文リスト
- Novel Representation Learning Technique using Graphs for Performance
Analytics [0.0]
本稿では,グラフニューラルネットワーク(GNN)技術の進歩を活用するために,パフォーマンスデータをグラフに変換する新しいアイデアを提案する。
ソーシャルネットワークのような他の機械学習アプリケーションドメインとは対照的に、グラフは提供されない。
我々は,GNNから生成された埋め込みの有効性を,単純なフィードフォワードニューラルネットワークによる回帰処理の性能評価に基づいて評価した。
論文 参考訳(メタデータ) (2024-01-19T16:34:37Z) - Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework
for Enhancing Model Performance and Efficiency [9.460023981858319]
本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。
AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。
トレーニングデータの最大10~30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
論文 参考訳(メタデータ) (2023-12-09T16:01:21Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Accelerating Dataset Distillation via Model Augmentation [41.3027484667024]
本研究では,初期モデルとパラメータを用いた2つのモデル拡張手法を提案し,学習コストを大幅に削減した情報合成集合を学習する。
提案手法は,最先端の手法と同等の性能で,最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-12-12T07:36:05Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Data-Free Adversarial Knowledge Distillation for Graph Neural Networks [62.71646916191515]
グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための第1のエンドツーエンドフレームワークを提案する。
具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。
我々のDFAD-GNNは、グラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-05-08T08:19:40Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks [61.51515750218049]
本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
小型ソフト・プロンプトのみを訓練するPrompt-based Data Augmentation Model (PromDA)を提案する。
PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
論文 参考訳(メタデータ) (2022-02-25T05:09:27Z) - Self-Competitive Neural Networks [0.0]
ディープニューラルネットワーク(DNN)は、多くのアプリケーションにおける分類問題の精度を改善している。
DNNをトレーニングする際の課題の1つは、その正確性を高め、過度な適合に苦しむことを避けるために、豊富なデータセットによって供給される必要があることである。
近年,データ拡張手法の提案が盛んに行われている。
本稿では,各クラスのドメイン・オブ・アトラクション(DoAs)を洗練させるために,逆データを生成します。このアプローチでは,各段階において,プライマリデータと生成された逆データ(その段階まで)から学習したモデルを用いて,プライマリデータを複雑な方法で操作する。
論文 参考訳(メタデータ) (2020-08-22T12:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。