論文の概要: Generative Denoise Distillation: Simple Stochastic Noises Induce
Efficient Knowledge Transfer for Dense Prediction
- arxiv url: http://arxiv.org/abs/2401.08332v2
- Date: Wed, 17 Jan 2024 07:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 11:15:19.510926
- Title: Generative Denoise Distillation: Simple Stochastic Noises Induce
Efficient Knowledge Transfer for Dense Prediction
- Title(参考訳): 生成的脱離蒸留:高濃度予測のための効率的な知識伝達を誘導する単純な確率的雑音
- Authors: Zhaoge Liu, Xiaohao Xu, Yunkang Cao, Weiming Shen
- Abstract要約: 本稿では,教師から生徒に知識を伝達するための革新的な方法である生成脱ノイズ蒸留(GDD)を提案する。
GDDは、学生のコンセプト機能にセマンティックノイズを埋め込んで、浅いネットワークから生成されたインスタンス機能に埋め込む。
オブジェクト検出,インスタンス分割,セマンティックセグメンテーションを広範囲に実験し,本手法の有効性と有効性を示す。
- 参考スコア(独自算出の注目度): 3.2976453916809803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is the process of transferring knowledge from a more
powerful large model (teacher) to a simpler counterpart (student). Numerous
current approaches involve the student imitating the knowledge of the teacher
directly. However, redundancy still exists in the learned representations
through these prevalent methods, which tend to learn each spatial location's
features indiscriminately. To derive a more compact representation (concept
feature) from the teacher, inspired by human cognition, we suggest an
innovative method, termed Generative Denoise Distillation (GDD), where
stochastic noises are added to the concept feature of the student to embed them
into the generated instance feature from a shallow network. Then, the generated
instance feature is aligned with the knowledge of the instance from the
teacher. We extensively experiment with object detection, instance
segmentation, and semantic segmentation to demonstrate the versatility and
effectiveness of our method. Notably, GDD achieves new state-of-the-art
performance in the tasks mentioned above. We have achieved substantial
improvements in semantic segmentation by enhancing PspNet and DeepLabV3, both
of which are based on ResNet-18, resulting in mIoU scores of 74.67 and 77.69,
respectively, surpassing their previous scores of 69.85 and 73.20 on the
Cityscapes dataset of 20 categories. The source code is available at
https://github.com/ZhgLiu/GDD.
- Abstract(参考訳): 知識蒸留は、より強力な大きなモデル(教師)からより単純なモデル(学生)に知識を伝達する過程である。
現在の多くのアプローチでは、生徒が直接教師の知識を模倣する。
しかし、冗長性は、各空間的位置の特徴を無差別に学習する傾向があるこれらの一般的な方法を通じて、学習された表現の中にまだ存在する。
教師からよりコンパクトな表現(概念的特徴)を導き、人間の認知に触発されて、学習者の概念に確率的ノイズを加えて浅層ネットワークから生成されたインスタンス特徴に組み込むという、GDD(Generative Denoise Distillation)と呼ばれる革新的な手法を提案する。
そして、生成されたインスタンス機能は、教師からのインスタンスの知識と一致します。
提案手法の汎用性と有効性を示すために,オブジェクト検出,インスタンス分割,セマンティクスセグメンテーションを広範囲に実験した。
特に、GDDは上記のタスクで新しい最先端のパフォーマンスを達成する。
PspNetとDeepLabV3はResNet-18をベースとして,それぞれ74.67点,77.69点のmIoUスコアを,Cityscapesの20カテゴリのデータセットで69.85点,73.20点を突破し,セマンティックセグメンテーションの大幅な改善を実現した。
ソースコードはhttps://github.com/ZhgLiu/GDDで入手できる。
関連論文リスト
- Augmentation-Free Dense Contrastive Knowledge Distillation for Efficient
Semantic Segmentation [16.957139277317005]
Af-DCD(Augmentation-free Dense Contrastive Knowledge Distillation)は、新しいコントラスト蒸留学習パラダイムである。
Af-DCDはセマンティックセグメンテーションのためのコンパクトで正確なディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2023-12-07T09:37:28Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [75.59791764353459]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Energy-based Latent Aligner for Incremental Learning [83.0135278697976]
ディープラーニングモデルは、新しいタスクを漸進的に学習しながら、以前の知識を忘れる傾向があります。
この振る舞いは、新しいタスクに最適化されたパラメータ更新が、古いタスクに適したアップデートとうまく一致しない可能性があるため現れます。
ELI: インクリメンタルラーニングのためのエネルギーベースラテントアリグナーを提案する。
論文 参考訳(メタデータ) (2022-03-28T17:57:25Z) - Deep Structured Instance Graph for Distilling Object Detectors [82.16270736573176]
本稿では,検出システム内の情報を利用して,検出知識の蒸留を容易にするための簡単な知識構造を提案する。
我々は,1段と2段の両方の検出器上で,多様な学生-教師ペアによるCOCOオブジェクト検出の課題に対して,新しい最先端の成果を達成した。
論文 参考訳(メタデータ) (2021-09-27T08:26:00Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。