論文の概要: Knowledge Distillation via Instance-level Sequence Learning
- arxiv url: http://arxiv.org/abs/2106.10885v1
- Date: Mon, 21 Jun 2021 06:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:31:48.847774
- Title: Knowledge Distillation via Instance-level Sequence Learning
- Title(参考訳): インスタンスレベルシーケンス学習による知識蒸留
- Authors: Haoran Zhao, Xin Sun, Junyu Dong, Zihe Dong and Qiong Li
- Abstract要約: 事例レベルのシーケンス学習を通したカリキュラム学習知識蒸留フレームワークを提供する。
学生ネットワークの次のトレーニングフェーズのカリキュラムを作成するために、初期のエポックの学生ネットワークをスナップショットとして採用している。
いくつかの最先端の手法と比較して、我々のフレームワークはより少ないイテレーションで最高のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 25.411142312584698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, distillation approaches are suggested to extract general knowledge
from a teacher network to guide a student network. Most of the existing methods
transfer knowledge from the teacher network to the student via feeding the
sequence of random mini-batches sampled uniformly from the data. Instead, we
argue that the compact student network should be guided gradually using samples
ordered in a meaningful sequence. Thus, it can bridge the gap of feature
representation between the teacher and student network step by step. In this
work, we provide a curriculum learning knowledge distillation framework via
instance-level sequence learning. It employs the student network of the early
epoch as a snapshot to create a curriculum for the student network's next
training phase. We carry out extensive experiments on CIFAR-10, CIFAR-100, SVHN
and CINIC-10 datasets. Compared with several state-of-the-art methods, our
framework achieves the best performance with fewer iterations.
- Abstract(参考訳): 近年,教師ネットワークから一般知識を抽出して学生ネットワークを指導する蒸留手法が提案されている。
既存の手法のほとんどは、データから一様にサンプリングされたランダムなミニバッチのシーケンスを入力して、教師ネットワークから生徒に知識を伝達する。
代わりに、我々は、意味のあるシーケンスで順序付けられたサンプルを用いて、コンパクトな学生ネットワークを徐々にガイドすべきであると主張する。
これにより、教師と生徒ネットワーク間の特徴表現のギャップを段階的に橋渡しすることができる。
本研究では,事例レベルのシーケンス学習による知識蒸留フレームワークのカリキュラムを提供する。
学生ネットワークの次のトレーニングフェーズのカリキュラムを作成するために、初期のエポックの学生ネットワークをスナップショットとして採用している。
CIFAR-10, CIFAR-100, SVHN, CINIC-10データセットについて広範な実験を行った。
いくつかの最先端のメソッドと比較して、我々のフレームワークは、少ないイテレーションで最高のパフォーマンスを実現します。
関連論文リスト
- Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - Learning to Retain while Acquiring: Combating Distribution-Shift in
Adversarial Data-Free Knowledge Distillation [31.294947552032088]
データフリーな知識蒸留(DFKD)は、教師から学生ニューラルネットワークへの知識伝達を、訓練データがない状態で行うという基本的な考え方により、近年人気を集めている。
本稿では,メタトレインとメタテストとして,知識獲得(新たに生成されたサンプルからの学習)と知識保持(以前に得られたサンプルの知識の保持)の課題を取り扱うことで,メタ学習にインスパイアされたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T03:50:56Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Hypernetworks for Continual Semi-Supervised Learning [37.109190308781244]
我々は,MCSSL(Continuous Semi-Supervised Learning)のためのメタ・コンソリデーション(Meta-Consolidation)と呼ばれる,半教師付き連続学習のためのフレームワークを提案する。
本フレームワークは,半教師付き補助分類器生成逆数ネットワーク$(textitSemi-ACGAN)$の重みをベースネットワークとして生成するメタ分布を学習するハイパーネットワークである。
我々は、textitSemi-Split CIFAR-10$データセットを変更することで得られる、継続半教師付き学習のための新しいベンチマークである、$textitSemi-Split CIFAR-10$を示す。
論文 参考訳(メタデータ) (2021-10-05T07:42:38Z) - Students are the Best Teacher: Exit-Ensemble Distillation with
Multi-Exits [25.140055086630838]
本論文では,畳み込みニューラルネットワーク(CNN)の分類性能を改善するための知識蒸留に基づく新しい学習法を提案する。
教師が生徒にのみ教える従来の蒸留の概念とは異なり、生徒は他の生徒や教師がもっとよく学ぶのを助けることができる。
論文 参考訳(メタデータ) (2021-04-01T07:10:36Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。