論文の概要: Layerwise Bregman Representation Learning with Applications to Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2209.07080v1
- Date: Thu, 15 Sep 2022 06:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:10:09.083235
- Title: Layerwise Bregman Representation Learning with Applications to Knowledge
Distillation
- Title(参考訳): 階層的ブレグマン表現学習と知識蒸留への応用
- Authors: Ehsan Amid, Rohan Anil, Christopher Fifty, Manfred K. Warmuth
- Abstract要約: 本稿では,ニューラルネットワークの階層的表現学習のための新しい手法を提案する。
特に、層移動関数に基づいてブレグマン発散を形成する。
知識蒸留への応用として,教師の表現の圧縮係数の予測として,学生ネットワークの学習問題を考察した。
- 参考スコア(独自算出の注目度): 21.162404996362948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a novel approach for layerwise representation
learning of a trained neural network. In particular, we form a Bregman
divergence based on the layer's transfer function and construct an extension of
the original Bregman PCA formulation by incorporating a mean vector and
normalizing the principal directions with respect to the geometry of the local
convex function around the mean. This generalization allows exporting the
learned representation as a fixed layer with a non-linearity. As an application
to knowledge distillation, we cast the learning problem for the student network
as predicting the compression coefficients of the teacher's representations,
which are passed as the input to the imported layer. Our empirical findings
indicate that our approach is substantially more effective for transferring
information between networks than typical teacher-student training using the
teacher's penultimate layer representations and soft labels.
- Abstract(参考訳): 本研究では,ニューラルネットワークの階層的表現学習のための新しい手法を提案する。
特に, 平均ベクトルを包含し, 平均周りの局所凸関数の幾何に関して主方向を正規化することにより, 層の伝達関数に基づいてブレグマン分岐を形成し, 元のブレグマンPCA定式化の拡張を構成する。
この一般化により、学習した表現を非線形な固定層としてエクスポートすることができる。
知識蒸留への応用として,輸入層への入力として渡される教師の表現の圧縮係数の予測として,学生ネットワークの学習問題を提起した。
実験結果から,本手法は教師の垂直層表現とソフトラベルを用いた教師学生の訓練よりも,ネットワーク間の情報伝達に効果的であることが示唆された。
関連論文リスト
- GLL: A Differentiable Graph Learning Layer for Neural Networks [8.149825561954607]
グラフベースの学習技術、すなわちLaplace Learningは、教師付きおよび半教師付き学習(SSL)タスクのニューラルネットワークと組み合わせられている。
本研究では,一般的なグラフ学習層をニューラルネットワークに組み込むために,アジョイント法を用いてバックプロパゲーション方程式を導出する。
これにより、グラフラプラシアンベースのラベル伝搬をニューラルネットワーク層に正確に統合し、プロジェクションヘッドとソフトマックスアクティベーション関数を置き換えることができる。
論文 参考訳(メタデータ) (2024-12-11T01:54:29Z) - Harmonizing knowledge Transfer in Neural Network with Unified Distillation [20.922545937770085]
知識蒸留(KD)は、アーキテクチャを変更することなく、面倒なネットワーク(教師)から軽量なネットワーク(学生)に知識を伝達する能力で知られている。
本稿では,統一KDフレームワークにおける多様な知識源を活用することによって,新たな視点を紹介する。
論文 参考訳(メタデータ) (2024-09-27T09:09:45Z) - Hidden Classification Layers: Enhancing linear separability between
classes in neural networks layers [0.0]
トレーニング手法の深層ネットワーク性能への影響について検討する。
本稿では,全てのネットワークレイヤの出力を含むエラー関数を誘導するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-09T10:52:49Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Decomposing neural networks as mappings of correlation functions [57.52754806616669]
本研究では,ディープフィードフォワードネットワークによって実装された確率分布のマッピングについて検討する。
ニューラルネットワークで使用できる異なる情報表現と同様に、データに不可欠な統計を識別する。
論文 参考訳(メタデータ) (2022-02-10T09:30:31Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - Cross-Layer Distillation with Semantic Calibration [26.59016826651437]
本稿では,教師モデルの適切なターゲット層を各生徒層に自動的に割り当てるセマンティックなクロスレイヤー知識蒸留(SemCKD)を提案する。
学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。
論文 参考訳(メタデータ) (2020-12-06T11:16:07Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Representation Transfer by Optimal Transport [34.77292648424614]
2つの表現間の一致を定量化するために最適な輸送を用いる。
この距離は、生徒の表現と教師の表現の類似性を促進する正規化器を定義する。
論文 参考訳(メタデータ) (2020-07-13T23:42:06Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。