論文の概要: Multi-teacher knowledge distillation as an effective method for
compressing ensembles of neural networks
- arxiv url: http://arxiv.org/abs/2302.07215v1
- Date: Tue, 14 Feb 2023 17:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 14:40:00.489594
- Title: Multi-teacher knowledge distillation as an effective method for
compressing ensembles of neural networks
- Title(参考訳): ニューラルネットワークのアンサンブルを圧縮する効果的な方法としてのマルチ教師知識蒸留
- Authors: Konrad Zuchniak
- Abstract要約: 大規模深層モデルは非常に成功したが、膨大な計算複雑性と巨大なストレージ要件により、リアルタイムアプリケーションでは実装が困難である。
単一モデルの重み空間に全アンサンブルモデルを圧縮できる改良された知識蒸留フレームワークを提案する。
知識蒸留は,1つの学生モデルで複数の教師の知識を集約し,同じ計算量で,標準手法で訓練したモデルと比較して,優れた性能のモデルが得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has contributed greatly to many successes in artificial
intelligence in recent years. Today, it is possible to train models that have
thousands of layers and hundreds of billions of parameters. Large-scale deep
models have achieved great success, but the enormous computational complexity
and gigantic storage requirements make it extremely difficult to implement them
in real-time applications. On the other hand, the size of the dataset is still
a real problem in many domains. Data are often missing, too expensive, or
impossible to obtain for other reasons. Ensemble learning is partially a
solution to the problem of small datasets and overfitting. However, ensemble
learning in its basic version is associated with a linear increase in
computational complexity. We analyzed the impact of the ensemble
decision-fusion mechanism and checked various methods of sharing the decisions
including voting algorithms. We used the modified knowledge distillation
framework as a decision-fusion mechanism which allows in addition compressing
of the entire ensemble model into a weight space of a single model. We showed
that knowledge distillation can aggregate knowledge from multiple teachers in
only one student model and, with the same computational complexity, obtain a
better-performing model compared to a model trained in the standard manner. We
have developed our own method for mimicking the responses of all teachers at
the same time, simultaneously. We tested these solutions on several benchmark
datasets. In the end, we presented a wide application use of the efficient
multi-teacher knowledge distillation framework. In the first example, we used
knowledge distillation to develop models that could automate corrosion
detection on aircraft fuselage. The second example describes detection of smoke
on observation cameras in order to counteract wildfires in forests.
- Abstract(参考訳): 近年、ディープラーニングは人工知能の多くの成功に大きく貢献している。
今日では、数千のレイヤーと数十億のパラメータを持つモデルをトレーニングすることが可能である。
大規模深層モデルは非常に成功したが、膨大な計算複雑性と巨大なストレージ要件により、それをリアルタイムアプリケーションで実装するのは極めて困難である。
一方、データセットのサイズは、多くのドメインにおいて依然として本当の問題です。
データは、しばしば欠落している、高価すぎる、あるいは他の理由で入手できない。
アンサンブル学習は、小さなデータセットと過度に適合する問題の解決策である。
しかし、基本バージョンでのアンサンブル学習は計算複雑性の線形増加と関連している。
我々は,アンサンブル決定融合機構の影響を解析し,投票アルゴリズムを含む様々な意思決定方法を確認した。
我々は, 知識蒸留フレームワークを, 単一モデルの重み空間への全アンサンブルモデルの圧縮を可能にする, 決定融合機構として使用した。
知識蒸留は,1つの学生モデルで複数の教師の知識を集約し,同じ計算量で標準手法で学習したモデルと比較して,優れた性能のモデルが得られることを示した。
我々は,教師全員の反応を同時に模倣する独自の手法を開発した。
これらのソリューションをいくつかのベンチマークデータセットでテストしました。
最後に,効率的な多教師知識蒸留フレームワークの応用について紹介した。
最初の例では,航空機の胴体腐食検出を自動化するモデルの開発に知識蒸留を用いた。
第2の例は、森林での山火事に対処するために観測カメラで煙を検出することである。
関連論文リスト
- BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - From Actions to Events: A Transfer Learning Approach Using Improved Deep
Belief Networks [1.0554048699217669]
本稿では,エネルギーモデルを用いた行動認識からイベント認識への知識マッピング手法を提案する。
このようなモデルはすべてのフレームを同時に処理し、学習プロセスを通じて空間的および時間的情報を運ぶことができる。
論文 参考訳(メタデータ) (2022-11-30T14:47:10Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Knowledge Distillation in Deep Learning and its Applications [0.6875312133832078]
ディープラーニングモデルは比較的大きく、リソース制限されたデバイスにそのようなモデルをデプロイすることは困難である。
1つの解決策は知識蒸留であり、より小さなモデル(学生モデル)がより大きなモデル(教師モデル)からの情報を利用して訓練される。
論文 参考訳(メタデータ) (2020-07-17T14:43:52Z) - Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文 参考訳(メタデータ) (2020-06-09T21:47:17Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z) - Auto-Ensemble: An Adaptive Learning Rate Scheduling based Deep Learning
Model Ensembling [11.324407834445422]
本稿では,ディープラーニングモデルのチェックポイントを収集し,それらを自動的にアンサンブルする自動アンサンブル(AE)を提案する。
この手法の利点は、一度のトレーニングで学習率をスケジューリングすることで、モデルを様々な局所最適化に収束させることである。
論文 参考訳(メタデータ) (2020-03-25T08:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。