論文の概要: Knowledge Distillation via the Target-aware Transformer
- arxiv url: http://arxiv.org/abs/2205.10793v2
- Date: Mon, 8 Apr 2024 16:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:55:40.657126
- Title: Knowledge Distillation via the Target-aware Transformer
- Title(参考訳): ターゲット認識変換器による知識蒸留
- Authors: Sihao Lin, Hongwei Xie, Bing Wang, Kaicheng Yu, Xiaojun Chang, Xiaodan Liang, Gang Wang,
- Abstract要約: 本稿では,新しい一対一空間マッチング知識蒸留手法を提案する。
具体的には,教師の特徴のそれぞれのピクセルを,生徒の特徴の空間的位置すべてに蒸留する。
我々のアプローチは、様々なコンピュータビジョンベンチマークにおいて最先端の手法をはるかに上回っている。
- 参考スコア(独自算出の注目度): 83.03578375615614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation becomes a de facto standard to improve the performance of small neural networks. Most of the previous works propose to regress the representational features from the teacher to the student in a one-to-one spatial matching fashion. However, people tend to overlook the fact that, due to the architecture differences, the semantic information on the same spatial location usually vary. This greatly undermines the underlying assumption of the one-to-one distillation approach. To this end, we propose a novel one-to-all spatial matching knowledge distillation approach. Specifically, we allow each pixel of the teacher feature to be distilled to all spatial locations of the student features given its similarity, which is generated from a target-aware transformer. Our approach surpasses the state-of-the-art methods by a significant margin on various computer vision benchmarks, such as ImageNet, Pascal VOC and COCOStuff10k. Code is available at https://github.com/sihaoevery/TaT.
- Abstract(参考訳): 知識蒸留は、小さなニューラルネットワークの性能を向上させるためのデファクトスタンダードとなる。
従来の研究の多くは、教師から生徒への表現的特徴を1対1の空間的マッチング方式で表現することを提案する。
しかし、建築の違いにより、同じ空間上の意味情報が通常異なるという事実を人々は見落としがちである。
これは1対1の蒸留法の基礎となる仮定を大きく損なう。
そこで本研究では,新しい一対一空間マッチング知識蒸留手法を提案する。
具体的には,教師特徴の各画素を,その類似性から生徒特徴の空間的位置すべてに蒸留することができる。
我々のアプローチは、ImageNet、Pascal VOC、COCOStuff10kなど、様々なコンピュータビジョンベンチマークにおいて最先端の手法をはるかに上回っている。
コードはhttps://github.com/sihaoevery/TaT.comで入手できる。
関連論文リスト
- An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels [65.64402188506644]
バニラ変換器は個々のピクセルをトークンとして扱い、高性能な結果を得られる。
主にコンピュータビジョンにおける3つのよく研究されたタスクにおける画素・アズ・トークンの有効性を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - Distilling Inter-Class Distance for Semantic Segmentation [17.76592932725305]
本稿では,教師ネットワークから学生ネットワークへ特徴空間内のクラス間距離を伝達するための,クラス間距離蒸留(IDD)手法を提案する。
本手法はセマンティックセグメンテーションモデルの精度の向上と最先端の性能向上に有効である。
論文 参考訳(メタデータ) (2022-05-07T13:13:55Z) - SATS: Self-Attention Transfer for Continual Semantic Segmentation [50.51525791240729]
連続的なセマンティックセグメンテーションは、連続的な分類学習と同じ破滅的な忘れの問題に悩まされる。
本研究では,各画像内の要素間の関係について,知識に関連する新しいタイプの情報伝達を提案する。
関係情報は、トランスフォーマースタイルのセグメンテーションモデルにおける自己アテンションマップから有効に得ることができる。
論文 参考訳(メタデータ) (2022-03-15T06:09:28Z) - It's All in the Head: Representation Knowledge Distillation through
Classifier Sharing [0.29360071145551075]
教師と学生間の分類器共有による表現蒸留の促進のための2つのアプローチを提案する。
提案手法は, 画像分類, きめ細かい分類, 顔認証など, 様々なデータセットやタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-01-18T13:10:36Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Sparse Spatial Transformers for Few-Shot Learning [6.271261279657655]
限られたデータから学ぶことは、データの不足によってトレーニングされたモデルの一般化が不十分になるため、難しい。
スパース空間トランスと呼ばれる新しいトランスを用いたニューラルネットワークアーキテクチャを提案する。
本手法はタスク関連機能を見つけ,タスク関連機能を抑制する。
論文 参考訳(メタデータ) (2021-09-27T10:36:32Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。