論文の概要: Knowledge Distillation via the Target-aware Transformer
- arxiv url: http://arxiv.org/abs/2205.10793v1
- Date: Sun, 22 May 2022 10:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:14:34.944777
- Title: Knowledge Distillation via the Target-aware Transformer
- Title(参考訳): ターゲット認識変換器による知識蒸留
- Authors: Sihao Lin, Hongwei Xie, Bing Wang, Kaicheng Yu, Xiaojun Chang, Xiaodan
Liang, Gang Wang
- Abstract要約: 本稿では,新しい一対一空間マッチング知識蒸留手法を提案する。
具体的には,教師の特徴のそれぞれのピクセルを,生徒の特徴の空間的位置すべてに蒸留する。
我々のアプローチは、様々なコンピュータビジョンベンチマークにおいて最先端の手法をはるかに上回っている。
- 参考スコア(独自算出の注目度): 95.63932542155571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation becomes a de facto standard to improve the performance
of small neural networks. Most of the previous works propose to regress the
representational features from the teacher to the student in a one-to-one
spatial matching fashion. However, people tend to overlook the fact that, due
to the architecture differences, the semantic information on the same spatial
location usually vary. This greatly undermines the underlying assumption of the
one-to-one distillation approach. To this end, we propose a novel one-to-all
spatial matching knowledge distillation approach. Specifically, we allow each
pixel of the teacher feature to be distilled to all spatial locations of the
student features given its similarity, which is generated from a target-aware
transformer. Our approach surpasses the state-of-the-art methods by a
significant margin on various computer vision benchmarks, such as ImageNet,
Pascal VOC and COCOStuff10k. Code will be released soon.
- Abstract(参考訳): 知識蒸留は、小さなニューラルネットワークの性能を改善するためのデファクトスタンダードとなる。
以前の作品の多くは、一対一の空間マッチングで教師から生徒への表象的特徴を後退させることを提案している。
しかし、建築の違いにより、同じ空間上の意味情報が通常異なるという事実を人々は見落としがちである。
これは1対1の蒸留法の基本前提を大きく損なう。
そこで本研究では,新しい空間マッチング知識蒸留法を提案する。
具体的には,教師特徴の画素を,目標認識トランスフォーマーから生成される類似性を考慮して,学生特徴のすべての空間的位置へ蒸留することを可能にする。
我々のアプローチは、ImageNet、Pascal VOC、COCOStuff10kなど、様々なコンピュータビジョンベンチマークにおいて最先端の手法をはるかに上回っている。
コードはまもなくリリースされる。
関連論文リスト
- PW-Self: Patch-Wise Self-Supervised Visual Representation Learning [5.53006611172769]
本研究では、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的な次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけることができる、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - Normalized Feature Distillation for Semantic Segmentation [6.882655287146012]
正規化特徴蒸留(NFD)と呼ばれる簡易かつ効果的な特徴蒸留法を提案する。
提案手法は,都市景観,VOC 2012,ADE20Kデータセットのセマンティックセマンティックセマンティックセグメンテーションのための,最先端の蒸留結果を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:54:25Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [75.59791764353459]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Distilling Inter-Class Distance for Semantic Segmentation [17.76592932725305]
本稿では,教師ネットワークから学生ネットワークへ特徴空間内のクラス間距離を伝達するための,クラス間距離蒸留(IDD)手法を提案する。
本手法はセマンティックセグメンテーションモデルの精度の向上と最先端の性能向上に有効である。
論文 参考訳(メタデータ) (2022-05-07T13:13:55Z) - Delta Distillation for Efficient Video Processing [68.81730245303591]
デルタ蒸留と呼ばれる新しい知識蒸留方式を提案する。
ビデオフレーム内の時間的冗長性により,これらの時間的変動を効果的に蒸留できることを実証した。
副産物として、デルタ蒸留は教師モデルの時間的一貫性を向上させる。
論文 参考訳(メタデータ) (2022-03-17T20:13:30Z) - SATS: Self-Attention Transfer for Continual Semantic Segmentation [50.51525791240729]
連続的なセマンティックセグメンテーションは、連続的な分類学習と同じ破滅的な忘れの問題に悩まされる。
本研究では,各画像内の要素間の関係について,知識に関連する新しいタイプの情報伝達を提案する。
関係情報は、トランスフォーマースタイルのセグメンテーションモデルにおける自己アテンションマップから有効に得ることができる。
論文 参考訳(メタデータ) (2022-03-15T06:09:28Z) - Visualizing the embedding space to explain the effect of knowledge
distillation [5.678337324555035]
近年の研究では、知識蒸留はネットワークのサイズを減らすのに有効であることが判明している。
これらの進歩にもかかわらず、この方法がなぜ機能するのか、つまり、結果として生じる学生モデルが「どう機能するか」は、いまだに不明である。
論文 参考訳(メタデータ) (2021-10-09T07:04:26Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。