論文の概要: Masked Distillation with Receptive Tokens
- arxiv url: http://arxiv.org/abs/2205.14589v1
- Date: Sun, 29 May 2022 07:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 16:05:09.098135
- Title: Masked Distillation with Receptive Tokens
- Title(参考訳): 受容トークンを用いたマスク蒸留
- Authors: Tao Huang, Yuan Zhang, Shan You, Fei Wang, Chen Qian, Jian Cao, Chang
Xu
- Abstract要約: 特徴写像からの蒸留は、密集した予測タスクにかなり効果的である。
特徴マップ内の興味のピクセルをローカライズするために,受容トークンと呼ばれる学習可能な埋め込みを導入する。
MasKD と呼ばれる手法はシンプルで実用的であり,アプリケーション内でのタスクの事前処理は不要である。
- 参考スコア(独自算出の注目度): 44.99434415373963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distilling from the feature maps can be fairly effective for dense prediction
tasks since both the feature discriminability and localization priors can be
well transferred. However, not every pixel contributes equally to the
performance, and a good student should learn from what really matters to the
teacher. In this paper, we introduce a learnable embedding dubbed receptive
token to localize those pixels of interests (PoIs) in the feature map, with a
distillation mask generated via pixel-wise attention. Then the distillation
will be performed on the mask via pixel-wise reconstruction. In this way, a
distillation mask actually indicates a pattern of pixel dependencies within
feature maps of teacher. We thus adopt multiple receptive tokens to investigate
more sophisticated and informative pixel dependencies to further enhance the
distillation. To obtain a group of masks, the receptive tokens are learned via
the regular task loss but with teacher fixed, and we also leverage a Dice loss
to enrich the diversity of learned masks. Our method dubbed MasKD is simple and
practical, and needs no priors of tasks in application. Experiments show that
our MasKD can achieve state-of-the-art performance consistently on object
detection and semantic segmentation benchmarks. Code is available at:
https://github.com/hunto/MasKD .
- Abstract(参考訳): 特徴マップからの蒸留は,特徴判別性と局所化前処理の両方を良好に伝達できるため,濃密な予測タスクにかなり有効である。
しかし、すべてのピクセルがパフォーマンスに等しく貢献する訳ではなく、良い生徒は教師にとって本当に重要なことから学ぶべきである。
本稿では,これらの興味のピクセル(pois)を特徴マップにローカライズするためのレセプティブトークン(receptive token)と呼ばれる学習可能な埋め込みについて紹介する。
そして、その蒸留を画素単位で再構築することで行う。
このようにして、蒸留マスクは実際に教師の特徴地図内の画素依存性のパターンを示す。
そこで我々は,より精巧で有益なピクセル依存性を調査し,蒸留をさらに強化するために,複数の受容トークンを採用する。
マスクの集合を得るためには,通常のタスク損失ではなく教師の固定によって受容トークンを学習し,またDice損失を利用して学習マスクの多様性を向上する。
MasKDと呼ばれる手法はシンプルで実用的であり,アプリケーション内でのタスクの事前処理は不要である。
実験の結果、マスキングはオブジェクト検出とセマンティクスセグメンテーションベンチマークで一貫して最先端のパフォーマンスを達成できることがわかった。
コードは、https://github.com/hunto/MasKD で入手できる。
関連論文リスト
- Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - DMKD: Improving Feature-based Knowledge Distillation for Object
Detection Via Dual Masking Augmentation [10.437237606721222]
我々は、空間的に重要かつチャネル的に情報的手がかりの両方をキャプチャできるDMKD(Dual Masked Knowledge Distillation)フレームワークを考案した。
対象物検出タスクの実験により,本手法の助けを借りて,学生ネットワークは4.1%,4.3%の性能向上を達成した。
論文 参考訳(メタデータ) (2023-09-06T05:08:51Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - What to Hide from Your Students: Attention-Guided Masked Image Modeling [32.402567373491834]
画像トークンマスキングは、テキストのトークンマスキングと根本的に異なる。
注意誘導マスキング(AttMask)と呼ばれる新しいマスキング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-23T20:52:50Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z) - Few-shot Semantic Image Synthesis Using StyleGAN Prior [8.528384027684192]
本稿では,STYPEGANを用いたセマンティックマスクの擬似ラベリングを行うトレーニング戦略を提案する。
私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。
擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。
論文 参考訳(メタデータ) (2021-03-27T11:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。