論文の概要: Improving Ensemble Distillation With Weight Averaging and Diversifying
Perturbation
- arxiv url: http://arxiv.org/abs/2206.15047v1
- Date: Thu, 30 Jun 2022 06:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:40:13.482574
- Title: Improving Ensemble Distillation With Weight Averaging and Diversifying
Perturbation
- Title(参考訳): 重量平均化と多彩化によるアンサンブル蒸留の改善
- Authors: Giung Nam, Hyungi Lee, Byeongho Heo, Juho Lee
- Abstract要約: アンサンブル教師からの知識の蒸留を、より小さな学生ネットワークに動機付ける。
本研究では,複数作業を行う学生を対象に,アンサンブル教師の機能的多様性を吸収するウェイト平均化手法を提案する。
また,教師の多様性をよりよく生徒に伝達できるインプットを求める摂動戦略を提案する。
- 参考スコア(独自算出の注目度): 22.87106703794863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensembles of deep neural networks have demonstrated superior performance, but
their heavy computational cost hinders applying them for resource-limited
environments. It motivates distilling knowledge from the ensemble teacher into
a smaller student network, and there are two important design choices for this
ensemble distillation: 1) how to construct the student network, and 2) what
data should be shown during training. In this paper, we propose a weight
averaging technique where a student with multiple subnetworks is trained to
absorb the functional diversity of ensemble teachers, but then those
subnetworks are properly averaged for inference, giving a single student
network with no additional inference cost. We also propose a perturbation
strategy that seeks inputs from which the diversities of teachers can be better
transferred to the student. Combining these two, our method significantly
improves upon previous methods on various image classification tasks.
- Abstract(参考訳): ディープニューラルネットワークのアンサンブルは優れた性能を示しているが、その計算コストはリソース制限環境に適用するのを妨げる。
アンサンブル教師からより小さな学生ネットワークへの蒸留知識を動機付けており、このアンサンブル蒸留には2つの重要な設計選択がある。
1)学生ネットワークの構築方法、及び
2)トレーニング中に表示すべきデータ。
本稿では,複数のサブネットワークを持つ学生に対して,教師の機能的多様性を吸収するように訓練する重み平均化手法を提案する。
また,教師の多様性をより良く学生に伝達できるインプットを求める摂動戦略を提案する。
この2つの手法を組み合わせることで,従来の画像分類法を大幅に改善した。
関連論文リスト
- Ensemble Learning via Knowledge Transfer for CTR Prediction [9.891226177252653]
本稿では,より大規模なアンサンブルネットワークを調査し,一般的なアンサンブル学習法に特有の3つの制約を見出す。
我々は,新しいモデルに依存しないアンサンブル知識伝達フレームワーク(EKTF)を提案する。
実世界の5つのデータセットの実験結果は、EKTFの有効性と互換性を示している。
論文 参考訳(メタデータ) (2024-11-25T06:14:20Z) - Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - Crowd Counting with Online Knowledge Learning [23.602652841154164]
本稿では,クラウドカウントのためのオンライン知識学習手法を提案する。
本手法は,2つの独立したネットワークを1つのアーキテクチャに統合するエンドツーエンドのトレーニングフレームワークを構築する。
本手法は,パラメータがはるかに少ないにもかかわらず,最先端手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-03-18T03:27:57Z) - Knowledge Distillation via Weighted Ensemble of Teaching Assistants [18.593268785143426]
知識蒸留は、教師と呼ばれる大きなモデルから学生と呼ばれる小さなモデルに知識を移す過程である。
教師と生徒のネットワークサイズギャップが大きくなると、学生ネットワークの性能は低下する。
学生モデル(より小さいモデル)は,複数の指導支援モデルを用いてさらに改善できることが示されている。
論文 参考訳(メタデータ) (2022-06-23T22:50:05Z) - Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student
Settings and its Superiority to Kernel Methods [58.44819696433327]
教師回帰モデルにおける2層ReLUニューラルネットワークのリスクについて検討する。
学生ネットワークは、どの解法よりも確実に優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-30T02:51:36Z) - Augmenting Knowledge Distillation With Peer-To-Peer Mutual Learning For
Model Compression [2.538209532048867]
相互学習(ML)は、複数の単純な学生ネットワークが知識を共有することで恩恵を受ける、代替戦略を提供する。
そこで本研究では,KDとMLを併用して,より優れたパフォーマンスを実現する,単教師多学生フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T09:59:31Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。