論文の概要: Matching Guided Distillation
- arxiv url: http://arxiv.org/abs/2008.09958v2
- Date: Tue, 13 Oct 2020 02:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 02:36:15.258567
- Title: Matching Guided Distillation
- Title(参考訳): マッチガイド蒸留
- Authors: Kaiyu Yue, Jiangfan Deng, Feng Zhou
- Abstract要約: 特徴蒸留はより小型の学生モデルの性能向上に有効な方法である。
教師と学生の中間的特徴の間には意味的特徴構造にギャップがある。
これらの問題を解決するために, MGD (Matching Guided Distillation) を効率的かつパラメータフリーな方法として提示する。
- 参考スコア(独自算出の注目度): 11.499838489987624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature distillation is an effective way to improve the performance for a
smaller student model, which has fewer parameters and lower computation cost
compared to the larger teacher model. Unfortunately, there is a common obstacle
- the gap in semantic feature structure between the intermediate features of
teacher and student. The classic scheme prefers to transform intermediate
features by adding the adaptation module, such as naive convolutional,
attention-based or more complicated one. However, this introduces two problems:
a) The adaptation module brings more parameters into training. b) The
adaptation module with random initialization or special transformation isn't
friendly for distilling a pre-trained student. In this paper, we present
Matching Guided Distillation (MGD) as an efficient and parameter-free manner to
solve these problems. The key idea of MGD is to pose matching the teacher
channels with students' as an assignment problem. We compare three solutions of
the assignment problem to reduce channels from teacher features with partial
distillation loss. The overall training takes a coordinate-descent approach
between two optimization objects - assignments update and parameters update.
Since MGD only contains normalization or pooling operations with negligible
computation cost, it is flexible to plug into network with other distillation
methods.
- Abstract(参考訳): 機能蒸留は、より大きな教師モデルに比べてパラメータが少なく、計算コストも低い、より小さな生徒モデルのパフォーマンスを改善する効果的な方法である。
残念なことに、教師と学生の中間的特徴の間の意味的特徴構造のギャップという共通の障害がある。
古典的なスキームは、適応モジュール(naive convolutional, attention-based, more complex)を追加することで中間的な特徴を変換することを好む。
しかし、これは2つの問題を引き起こす。
a) 適応モジュールはトレーニングにより多くのパラメータをもたらす。
b) ランダム初期化や特殊変換を伴う適応モジュールは,事前学習した学生の蒸留には適さない。
本稿では,これらの問題を解決するために,MGD(Matching Guided Distillation)を効率的かつパラメータフリーな方法として提示する。
mgdの鍵となる考え方は、教師のチャンネルと生徒のチャンネルを対応させることである。
部分蒸留損失を伴う教師の特徴からチャネルを減らすために,課題の3つの解を比較した。
全体的なトレーニングでは、2つの最適化オブジェクト - 代入更新とパラメータ更新 - の座標-descentアプローチを採用している。
MGDは計算コストが無視できる正規化やプール操作しか含まないため、他の蒸留法でネットワークに接続することは柔軟である。
関連論文リスト
- Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Visual Query Tuning: Towards Effective Usage of Intermediate
Representations for Parameter and Memory Efficient Transfer Learning [19.254454866466187]
視覚変換器の中間機能を集約する視覚クエリチューニング(VQT)を提案する。
VQTは中間機能をそのままに保ち、それらを組み合わせることしか学ばないため、トレーニングではメモリ効率がよい。
VQTは、トランスファーラーニングに中間機能を利用する最先端のアプローチを一貫して超越している。
論文 参考訳(メタデータ) (2022-12-06T18:39:45Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Unsupervised domain adaptation via coarse-to-fine feature alignment
method using contrastive learning [3.766510519275168]
CFContraと呼ばれるコントラスト学習を用いた粗大な特徴アライメント手法を提案する。
これは、粗い特徴のアライメントやクラス的な特徴のアライメントだけに近づきます。
特に,セマンティクスセグメンテーションに対比的損失を適用する場合の過大なメモリ占有を防止するために,メモリバンクを構築し更新する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-03-23T08:12:28Z) - Hyperparameter Transfer Learning with Adaptive Complexity [5.695163312473305]
ネストされたドロップアウトと自動関連性判定によって複雑性を高める順序付き非線形基底関数の集合を学習する新しいマルチタスクBO法を提案する。
論文 参考訳(メタデータ) (2021-02-25T12:26:52Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。