論文の概要: Matching Guided Distillation
- arxiv url: http://arxiv.org/abs/2008.09958v2
- Date: Tue, 13 Oct 2020 02:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 02:36:15.258567
- Title: Matching Guided Distillation
- Title(参考訳): マッチガイド蒸留
- Authors: Kaiyu Yue, Jiangfan Deng, Feng Zhou
- Abstract要約: 特徴蒸留はより小型の学生モデルの性能向上に有効な方法である。
教師と学生の中間的特徴の間には意味的特徴構造にギャップがある。
これらの問題を解決するために, MGD (Matching Guided Distillation) を効率的かつパラメータフリーな方法として提示する。
- 参考スコア(独自算出の注目度): 11.499838489987624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature distillation is an effective way to improve the performance for a
smaller student model, which has fewer parameters and lower computation cost
compared to the larger teacher model. Unfortunately, there is a common obstacle
- the gap in semantic feature structure between the intermediate features of
teacher and student. The classic scheme prefers to transform intermediate
features by adding the adaptation module, such as naive convolutional,
attention-based or more complicated one. However, this introduces two problems:
a) The adaptation module brings more parameters into training. b) The
adaptation module with random initialization or special transformation isn't
friendly for distilling a pre-trained student. In this paper, we present
Matching Guided Distillation (MGD) as an efficient and parameter-free manner to
solve these problems. The key idea of MGD is to pose matching the teacher
channels with students' as an assignment problem. We compare three solutions of
the assignment problem to reduce channels from teacher features with partial
distillation loss. The overall training takes a coordinate-descent approach
between two optimization objects - assignments update and parameters update.
Since MGD only contains normalization or pooling operations with negligible
computation cost, it is flexible to plug into network with other distillation
methods.
- Abstract(参考訳): 機能蒸留は、より大きな教師モデルに比べてパラメータが少なく、計算コストも低い、より小さな生徒モデルのパフォーマンスを改善する効果的な方法である。
残念なことに、教師と学生の中間的特徴の間の意味的特徴構造のギャップという共通の障害がある。
古典的なスキームは、適応モジュール(naive convolutional, attention-based, more complex)を追加することで中間的な特徴を変換することを好む。
しかし、これは2つの問題を引き起こす。
a) 適応モジュールはトレーニングにより多くのパラメータをもたらす。
b) ランダム初期化や特殊変換を伴う適応モジュールは,事前学習した学生の蒸留には適さない。
本稿では,これらの問題を解決するために,MGD(Matching Guided Distillation)を効率的かつパラメータフリーな方法として提示する。
mgdの鍵となる考え方は、教師のチャンネルと生徒のチャンネルを対応させることである。
部分蒸留損失を伴う教師の特徴からチャネルを減らすために,課題の3つの解を比較した。
全体的なトレーニングでは、2つの最適化オブジェクト - 代入更新とパラメータ更新 - の座標-descentアプローチを採用している。
MGDは計算コストが無視できる正規化やプール操作しか含まないため、他の蒸留法でネットワークに接続することは柔軟である。
関連論文リスト
- SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Attend, Distill, Detect: Attention-aware Entropy Distillation for Anomaly Detection [4.0679780034913335]
知識蒸留に基づくマルチクラスの異常検出では、低レイテンシで十分なパフォーマンスが期待できるが、1クラスのバージョンに比べて大幅に低下する。
教師と学生のネットワーク間の蒸留プロセスを改善するDCAM(Distributed Convolutional Attention Module)を提案する。
論文 参考訳(メタデータ) (2024-05-10T13:25:39Z) - iDAT: inverse Distillation Adapter-Tuning [15.485126287621439]
Adapter-Tuning (AT) 法では、事前訓練されたモデルを凍結し、下流の知識を得るためにトレーニング可能なアダプタモジュールを導入する。
本稿では,慎重に設計したアダプタモジュールを製作する代わりに,AT方式の蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-23T07:36:58Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Hyperparameter Transfer Learning with Adaptive Complexity [5.695163312473305]
ネストされたドロップアウトと自動関連性判定によって複雑性を高める順序付き非線形基底関数の集合を学習する新しいマルチタスクBO法を提案する。
論文 参考訳(メタデータ) (2021-02-25T12:26:52Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。