論文の概要: DistPro: Searching A Fast Knowledge Distillation Process via Meta
Optimization
- arxiv url: http://arxiv.org/abs/2204.05547v1
- Date: Tue, 12 Apr 2022 06:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 00:12:00.954149
- Title: DistPro: Searching A Fast Knowledge Distillation Process via Meta
Optimization
- Title(参考訳): distpro: メタ最適化による高速知識蒸留プロセスの探索
- Authors: Xueqing Deng, Dawei Sun, Shawn Newsam, Peng Wang
- Abstract要約: DistProは、識別可能なメタ学習を通じて最適な知識蒸留プロセスを求める新しいフレームワークである。
我々の実験では、DistProは一般的なデータセット上で様々な学習エポック数で最先端(SoTA)の精度を生成する。
- 参考スコア(独自算出の注目度): 10.076322383320061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Knowledge distillation (KD) studies show that different manually
designed schemes impact the learned results significantly. Yet, in KD,
automatically searching an optimal distillation scheme has not yet been well
explored. In this paper, we propose DistPro, a novel framework which searches
for an optimal KD process via differentiable meta-learning. Specifically, given
a pair of student and teacher networks, DistPro first sets up a rich set of KD
connection from the transmitting layers of the teacher to the receiving layers
of the student, and in the meanwhile, various transforms are also proposed for
comparing feature maps along its pathway for the distillation. Then, each
combination of a connection and a transform choice (pathway) is associated with
a stochastic weighting process which indicates its importance at every step
during the distillation. In the searching stage, the process can be effectively
learned through our proposed bi-level meta-optimization strategy. In the
distillation stage, DistPro adopts the learned processes for knowledge
distillation, which significantly improves the student accuracy especially when
faster training is required. Lastly, we find the learned processes can be
generalized between similar tasks and networks. In our experiments, DistPro
produces state-of-the-art (SoTA) accuracy under varying number of learning
epochs on popular datasets, i.e. CIFAR100 and ImageNet, which demonstrate the
effectiveness of our framework.
- Abstract(参考訳): 最近の知識蒸留(KD)研究は、異なる手作業で設計したスキームが学習結果に大きな影響を及ぼすことを示している。
しかしkdでは、最適蒸留スキームの自動探索はまだ十分に研究されていない。
本稿では,識別可能なメタ学習を通じて最適なKDプロセスを求める新しいフレームワークであるDistProを提案する。
具体的には, 学生と教師のネットワークが一対の場合, ディストプロはまず教師の伝達層から生徒の受取層への豊富なkd接続を設定し, その一方で, 蒸留経路に沿って特徴マップを比較するための様々な変換が提案されている。
次に、接続と変換選択(経路)の組み合わせは、蒸留中の各ステップにおいてその重要性を示す確率的重み付け過程に関連付けられる。
探索段階では,提案するbiレベルメタ最適化戦略により,その過程を効果的に学習することができる。
蒸留段階において、DistProは知識蒸留の学習プロセスを採用し、特に高速な訓練が必要な場合、学生の精度を大幅に向上させる。
最後に、学習プロセスは類似したタスクとネットワークの間で一般化可能であることを発見した。
実験では、一般的なデータセット(CIFAR100とImageNet)上で、さまざまな学習エポック数に基づいて最先端(SoTA)の精度を生成し、フレームワークの有効性を実証した。
関連論文リスト
- One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Delta Distillation for Efficient Video Processing [68.81730245303591]
デルタ蒸留と呼ばれる新しい知識蒸留方式を提案する。
ビデオフレーム内の時間的冗長性により,これらの時間的変動を効果的に蒸留できることを実証した。
副産物として、デルタ蒸留は教師モデルの時間的一貫性を向上させる。
論文 参考訳(メタデータ) (2022-03-17T20:13:30Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Prime-Aware Adaptive Distillation [27.66963552145635]
知識蒸留は、強力な教師ネットワークからの知識を模倣することで、学生ネットワークの性能を向上させることを目的としている。
従来の有効なハードマイニング法は蒸留には適していない。
プライム・アウェア・アダプティブ蒸留(PAD)は、蒸留におけるプライマーサンプルを知覚し、それらの効果を適応的に強調する。
論文 参考訳(メタデータ) (2020-08-04T10:53:12Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。