論文の概要: D$^3$ETR: Decoder Distillation for Detection Transformer
- arxiv url: http://arxiv.org/abs/2211.09768v1
- Date: Thu, 17 Nov 2022 18:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:38:25.814101
- Title: D$^3$ETR: Decoder Distillation for Detection Transformer
- Title(参考訳): d$^3$etr:検出変圧器用脱コーダ蒸留
- Authors: Xiaokang Chen, Jiahui Chen, Yan Liu, Gang Zeng
- Abstract要約: 我々は、DETRベースの検出器のトランスデコーダに着目し、KD法を探索する。
トランスデコーダの出力はランダムな順序で行われ、教師と生徒の予測と直接対応しない。
textbfDecoder textbfDistillation for textbfDEtection textbfTRansformer (D$3$ETR) を構築。
- 参考スコア(独自算出の注目度): 20.493873634246512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While various knowledge distillation (KD) methods in CNN-based detectors show
their effectiveness in improving small students, the baselines and recipes for
DETR-based detectors are yet to be built. In this paper, we focus on the
transformer decoder of DETR-based detectors and explore KD methods for them.
The outputs of the transformer decoder lie in random order, which gives no
direct correspondence between the predictions of the teacher and the student,
thus posing a challenge for knowledge distillation. To this end, we propose
MixMatcher to align the decoder outputs of DETR-based teachers and students,
which mixes two teacher-student matching strategies, i.e., Adaptive Matching
and Fixed Matching. Specifically, Adaptive Matching applies bipartite matching
to adaptively match the outputs of the teacher and the student in each decoder
layer, while Fixed Matching fixes the correspondence between the outputs of the
teacher and the student with the same object queries, with the teacher's fixed
object queries fed to the decoder of the student as an auxiliary group.
Based on MixMatcher, we build \textbf{D}ecoder \textbf{D}istillation for
\textbf{DE}tection \textbf{TR}ansformer (D$^3$ETR), which distills knowledge in
decoder predictions and attention maps from the teachers to students. D$^3$ETR
shows superior performance on various DETR-based detectors with different
backbones. For example, D$^3$ETR improves Conditional DETR-R50-C5 by
$\textbf{7.8}/\textbf{2.4}$ mAP under $12/50$ epochs training settings with
Conditional DETR-R101-C5 as the teacher.
- Abstract(参考訳): CNNベースの検出器における様々な知識蒸留(KD)手法は、小学生の育成に効果を示すが、DETRベースの検出器のベースラインとレシピはまだ作成されていない。
本稿では,DETRを用いた検出器のトランスデコーダに着目し,KD法を探索する。
トランスデコーダの出力はランダムな順序で行われ、教師と生徒の予測と直接対応しないため、知識の蒸留に挑戦する。
そこで本研究では,教師と教師のマッチング戦略,すなわち適応マッチングと固定マッチングを混合したdetrベースの教師と生徒のデコーダ出力を調整するためのmixmatcherを提案する。
具体的には、適応マッチングは、各デコーダ層における教師と生徒の出力を適応的にマッチングするために2部マッチングを適用し、固定マッチングは、教師と生徒の出力の対応を同じオブジェクトクエリで固定し、教師の固定オブジェクトクエリは、生徒のデコーダに補助グループとして供給する。
MixMatcherをベースとして, 教師から生徒へのデコーダ予測や注意マップの知識を抽出する, \textbf{D}ecoder \textbf{D}istillation for \textbf{DE}tection \textbf{TR}ansformer (D$^3$ETR)を構築した。
d$^3$etrは様々なバックボーンを持つdetrベースの検出器で優れた性能を示す。
例えば、D$^3$ETR は Conditional DETR-R50-C5 を $\textbf{7.8}/\textbf{2.4}$ mAP under $112/50$ epochs training settings with Conditional DETR-R101-C5 で改善する。
関連論文リスト
- How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval? [99.87554379608224]
クロスエンコーダのクロスモーダル類似度スコア分布は、二重エンコーダの結果がほぼ正常である間により集中する。
強陰性間の相対的な順序だけが有効な知識を伝達する一方、容易な負性間の順序情報はほとんど意味を持たない。
本研究では, コントラスト学習を用いて, 硬質負試料間の相対的な順序を模倣することを目的とした, コントラスト部分式蒸留法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:10:01Z) - OD-DETR: Online Distillation for Stabilizing Training of Detection Transformer [14.714768026997534]
本稿では,オンライン蒸留によるDETRトレーニングの安定化を目的とする。
指数移動平均(EMA)で蓄積した教師モデルを利用する。
実験の結果,提案したOD-DETRはトレーニングの安定化に成功し,パラメータを増やすことなく性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-09T14:07:35Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Detection Transformer with Stable Matching [48.963171068785435]
もっとも重要な設計は, 肯定的な事例の分類スコアを監督するために, 位置測定値のみを使用することである。
本原理では,DTRの分類損失とマッチングコストに位置測定値を統合することで,簡易かつ効果的な2つの修正を提案する。
12エポックおよび24エポックのトレーニング設定の下でResNet-50バックボーンを用いてCOCO検出ベンチマークで50.4および51.5APを達成する。
論文 参考訳(メタデータ) (2023-04-10T17:55:37Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Exploring Content Relationships for Distilling Efficient GANs [69.86835014810714]
本稿では,過剰パラメータ生成逆数ネットワーク(GAN)に対処するコンテンツ関係蒸留(CRD)を提案する。
従来のインスタンスレベルの蒸留とは対照的に,教師出力の内容を細粒度にスライスすることで,新しいGAN圧縮指向の知識を設計する。
提案した内容レベルの蒸留をベースとして,オンライン教師識別器を配置し,教師生成器と共同訓練した場合の更新を継続し,生徒生成器と共同訓練した場合の凍結を継続し,より良い対人訓練を行う。
論文 参考訳(メタデータ) (2022-12-21T15:38:12Z) - DETRs with Collaborative Hybrid Assignments Training [11.563949886871713]
本稿では,新しい協調型ハイブリット・アサイン・トレーニング・スキームである$mathcalC$o-DETRを提案する。
このトレーニングスキームは、エンド・ツー・エンド検出器におけるエンコーダの学習能力を容易に向上させることができる。
提案手法の有効性を評価するため, 広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-11-22T16:19:52Z) - Pair DETR: Contrastive Learning Speeds Up DETR Training [0.6491645162078056]
本稿では、DreTRの主な問題である緩やかな収束に対処するための簡単なアプローチを提案する。
2つのデコーダを用いて、一対のキーポイント、左上隅、中央としてオブジェクト境界ボックスを検出する。
実験により、Pair DETRは元のDETRより少なくとも10倍早く収束し、トレーニング中にConditional DETRより1.5倍速く収束できることが示された。
論文 参考訳(メタデータ) (2022-10-29T03:02:49Z) - G-DetKD: Towards General Distillation Framework for Object Detectors via
Contrastive and Semantic-guided Feature Imitation [49.421099172544196]
そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動的に行う,意味誘導型特徴模倣手法を提案する。
また,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。
本手法は,(1)フレームワークのコンポーネントを別々に使用した場合に,既存の検出KD技術よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-08-17T07:44:27Z) - CoDERT: Distilling Encoder Representations with Co-learning for
Transducer-based Speech Recognition [14.07385381963374]
トランスデューサのエンコーダ出力は自然に高いエントロピーを持ち、音響的に類似した単語-ピースの混同に関する豊富な情報を含んでいることを示す。
本稿では,教師のトランスデューサのエンコーダのロジットを蒸留するための補助的損失を導入し,このエンコーダ蒸留が効果的に機能するトレーニング戦略を探る。
論文 参考訳(メタデータ) (2021-06-14T20:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。