論文の概要: Search for Better Students to Learn Distilled Knowledge
- arxiv url: http://arxiv.org/abs/2001.11612v1
- Date: Thu, 30 Jan 2020 23:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 11:55:57.097205
- Title: Search for Better Students to Learn Distilled Knowledge
- Title(参考訳): 蒸留知識を学習する学生の探索
- Authors: Jindong Gu, Volker Tresp
- Abstract要約: 本研究では,優れた学生アーキテクチャを手作業で設計する代わりに,最適な学生を自動検索することを提案する。
L1-ノルム最適化に基づき、教師ネットワークトポロジグラフからのサブグラフを学生として選択し、学生の出力と教師の出力とのKL差を最小限にすることを目的とする。
実験により,学習した学生のアーキテクチャは,手作業で指定したものよりも優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 42.693046930423655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation, as a model compression technique, has received great
attention. The knowledge of a well-performed teacher is distilled to a student
with a small architecture. The architecture of the small student is often
chosen to be similar to their teacher's, with fewer layers or fewer channels,
or both. However, even with the same number of FLOPs or parameters, the
students with different architecture can achieve different generalization
ability. The configuration of a student architecture requires intensive network
architecture engineering. In this work, instead of designing a good student
architecture manually, we propose to search for the optimal student
automatically. Based on L1-norm optimization, a subgraph from the teacher
network topology graph is selected as a student, the goal of which is to
minimize the KL-divergence between student's and teacher's outputs. We verify
the proposal on CIFAR10 and CIFAR100 datasets. The empirical experiments show
that the learned student architecture achieves better performance than ones
specified manually. We also visualize and understand the architecture of the
found student.
- Abstract(参考訳): モデル圧縮技術としての知識蒸留が注目されている。
身なりの良い教師の知識は、小さな建築を持つ生徒に蒸留される。
小学生のアーキテクチャは、しばしば教師のものと似ていて、層数やチャンネル数が少ないか、あるいはその両方で選択される。
しかし、同じ数のFLOPやパラメータであっても、異なるアーキテクチャの学生は異なる一般化能力を得ることができる。
学生アーキテクチャの構成には集中的なネットワークアーキテクチャ工学が必要である。
本研究では,優れた学生アーキテクチャを手作業で設計する代わりに,最適な学生を自動検索することを提案する。
L1-ノルム最適化に基づき、教師ネットワークトポロジグラフからのサブグラフを学生として選択し、学生の出力と教師の出力とのKL差を最小限にすることを目的とする。
CIFAR10およびCIFAR100データセット上で提案手法を検証する。
実験の結果,学習した学生のアーキテクチャは手作業で指定したものよりも優れた性能が得られることがわかった。
また,見出された学生のアーキテクチャを視覚化し,理解する。
関連論文リスト
- One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Teacher-Student Architecture for Knowledge Distillation: A Survey [17.58895983901923]
いくつかのパラメータを持つ学生ネットワークは、多くのパラメータを持つディープ・教師ネットワークに匹敵する性能を達成することができる。
教師-学生アーキテクチャは、様々な知識蒸留(KD)の目的に効果的に広く受け入れられてきた。
論文 参考訳(メタデータ) (2023-08-08T14:09:33Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Federated Learning with Heterogeneous Architectures using Graph
HyperNetworks [154.60662664160333]
パラメータ共有にグラフハイパーネットワークを採用することにより、異種クライアントアーキテクチャに対応する新しいFLフレームワークを提案する。
既存のソリューションとは異なり、当社のフレームワークは、クライアントが同じアーキテクチャタイプを共有することを制限せず、外部データも使用せず、クライアントがモデルアーキテクチャを公開する必要もありません。
論文 参考訳(メタデータ) (2022-01-20T21:36:25Z) - Network Graph Based Neural Architecture Search [57.78724765340237]
我々は、対応するグラフを書き換えてニューラルネットワークを探索し、グラフ特性によるアーキテクチャ性能の予測を行う。
グラフ空間全体にわたって機械学習を行わないため、探索プロセスは極めて効率的である。
論文 参考訳(メタデータ) (2021-12-15T00:12:03Z) - AUTOKD: Automatic Knowledge Distillation Into A Student Architecture
Family [10.51711053229702]
ディープラーニングの最先端の成果は、より大きなモデルを使用することによって、着実に改善されている。
知識蒸留(KD)は理論上、小学生がより大きな教師モデルをエミュレートすることを可能にするが、実際には優れた学生アーキテクチャを選択するにはかなりの専門知識が必要である。
本稿では,教師の学習に長けているという特性を共有する学生建築の家族を探すことを提案する。
論文 参考訳(メタデータ) (2021-11-05T15:20:37Z) - Scene-adaptive Knowledge Distillation for Sequential Recommendation via
Differentiable Architecture Search [19.798931417466456]
シーケンシャル・レコメンデータ・システム(SRS)は、ユーザの動的興味やシーケンシャルな行動パターンをモデル化する能力から、研究ホットスポットとなっている。
モデル表現能力を最大化するために、デフォルトの選択は、より大きく深いネットワークアーキテクチャを適用することである。
本稿では,教師モデルの知識を学生モデルに適応的に圧縮するフレームワークであるAdaRecを提案する。
論文 参考訳(メタデータ) (2021-07-15T07:47:46Z) - Distilling a Powerful Student Model via Online Knowledge Distillation [158.68873654990895]
既存のオンライン知識蒸留アプローチは、最高のパフォーマンスを持つ学生を採用するか、より良い全体的なパフォーマンスのためのアンサンブルモデルを構築する。
本稿では,機能融合と自己蒸留という2つの要素からなるFFSDと呼ばれる新しいオンライン知識蒸留法を提案する。
論文 参考訳(メタデータ) (2021-03-26T13:54:24Z) - Cascaded channel pruning using hierarchical self-distillation [26.498907514590165]
本稿では,教師,教員,学生の枠組みに基づく階層的知識蒸留によるフィルタレベルのプルーニング手法を提案する。
本手法では, 対象学生と同じアーキテクチャと重みを共有する中間的プルーニングレベルにおいて, アシスタントを活用できる。
論文 参考訳(メタデータ) (2020-08-16T00:19:35Z) - Does Unsupervised Architecture Representation Learning Help Neural
Architecture Search? [22.63641173256389]
既存のニューラルアーキテクチャサーチ(NAS)手法は、スケールが良くない離散符号化を用いてニューラルアーキテクチャをエンコードするか、アーキテクチャ表現を共同で学習し、探索バイアスを引き起こすような表現上でアーキテクチャ探索を最適化するための教師付き学習ベースの手法を採用する。
アーキテクチャ表現学習と探索が組み合わさっていれば,ニューラルネットワークの構造的特性を潜時空間に保持することは困難であり,その結果,探索性能は低下する。
論文 参考訳(メタデータ) (2020-06-12T04:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。