論文の概要: DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families
- arxiv url: http://arxiv.org/abs/2211.10156v2
- Date: Mon, 21 Nov 2022 07:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 14:56:19.353791
- Title: DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families
- Title(参考訳): DETRDistill: DETRファミリーのためのユニバーサル知識蒸留フレームワーク
- Authors: Jiahao Chang, Shuo Wang, Guangkai Xu, Zehui Chen, Chenhongyi Yang,
Feng Zhao
- Abstract要約: トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
- 参考スコア(独自算出の注目度): 11.9748352746424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based detectors (DETRs) have attracted great attention due to
their sparse training paradigm and the removal of post-processing operations,
but the huge model can be computationally time-consuming and difficult to be
deployed in real-world applications. To tackle this problem, knowledge
distillation (KD) can be employed to compress the huge model by constructing a
universal teacher-student learning framework. Different from the traditional
CNN detectors, where the distillation targets can be naturally aligned through
the feature map, DETR regards object detection as a set prediction problem,
leading to an unclear relationship between teacher and student during
distillation. In this paper, we propose DETRDistill, a novel knowledge
distillation dedicated to DETR-families. We first explore a sparse matching
paradigm with progressive stage-by-stage instance distillation. Considering the
diverse attention mechanisms adopted in different DETRs, we propose
attention-agnostic feature distillation module to overcome the ineffectiveness
of conventional feature imitation. Finally, to fully leverage the intermediate
products from the teacher, we introduce teacher-assisted assignment
distillation, which uses the teacher's object queries and assignment results
for a group with additional guidance. Extensive experiments demonstrate that
our distillation method achieves significant improvement on various competitive
DETR approaches, without introducing extra consumption in the inference phase.
To the best of our knowledge, this is the first systematic study to explore a
general distillation method for DETR-style detectors.
- Abstract(参考訳): トランスフォーマーベースの検出器 (DETR) は, 未成熟なトレーニングパラダイムと後処理操作の除去により注目されているが, 計算に時間がかかり, 実際のアプリケーションに展開することが困難である。
この問題に取り組むために,普遍的な教師・学生学習フレームワークを構築し,巨大なモデルを圧縮するために知識蒸留(kd)が用いられる。
従来のCNN検出器とは異なり、蒸留対象を特徴マップを通して自然に整列させることができるため、DETRはオブジェクト検出をセット予測問題とみなし、蒸留中に教師と学生の間に不明瞭な関係が生じる。
本稿では,DETR家族を対象とした新しい知識蒸留であるDETRDistillを提案する。
まず,段階単位の段階的蒸留によるスパースマッチングのパラダイムを探求する。
異なるdetrで採用されている多種多様な注意機構を考慮し,従来の特徴模倣の非効率を克服するために注意非依存な特徴蒸留モジュールを提案する。
最後に,教師からの中間製品を完全に活用するために,教師のオブジェクトクエリと追加指導を行うグループに対する割当て結果を用いた,教師支援型割当て蒸留を導入する。
実験により, 蒸留法は, 推算段階での余分な消費を伴わずとも, 様々な競争力のあるDETRアプローチにおいて顕著な改善を達成できることを示した。
我々の知る限り、これはDETR型検出器の一般的な蒸留法を探求する最初の体系的な研究である。
関連論文リスト
- Knowledge Distillation via Query Selection for Detection Transformer [25.512519971607237]
本稿では, 知識蒸留を利用したDETR圧縮の課題について述べる。
DETRのパフォーマンスの重要な側面は、オブジェクト表現を正確に解釈するためのクエリへの依存である。
我々の視覚分析から,前景要素に着目した強相関クエリが蒸留結果の向上に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-09-10T11:49:28Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Dual Knowledge Distillation for Efficient Sound Event Detection [20.236008919003083]
音響信号中の特定の音とその時間的位置を認識するには,音事象検出(SED)が不可欠である。
本稿では,効率的なSEDシステムの開発を目的とした,二重知識蒸留と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T07:30:32Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Knowledge Distillation for Detection Transformer with Consistent
Distillation Points Sampling [38.60121990752897]
本稿では,一貫した蒸留点サンプリングによるDETR(KD-DETR)の知識蒸留パラダイムを提案する。
KD-DETRは、ResNet-18とResNet-50のバックボーンでDAB-DETRのパフォーマンスを41.4$%$、45.7$%$mAPに向上させ、ResNet-50は2.2%の価格で教師モデルを超えた。
論文 参考訳(メタデータ) (2022-11-15T11:52:30Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。