論文の概要: Knowledge Distillation via Query Selection for Detection Transformer
- arxiv url: http://arxiv.org/abs/2409.06443v1
- Date: Tue, 10 Sep 2024 11:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 17:58:36.578951
- Title: Knowledge Distillation via Query Selection for Detection Transformer
- Title(参考訳): 検出変圧器の問合せ選択による知識蒸留
- Authors: Yi Liu, Luting Wang, Zongheng Tang, Yue Liao, Yifan Sun, Lijun Zhang, Si Liu,
- Abstract要約: 本稿では, 知識蒸留を利用したDETR圧縮の課題について述べる。
DETRのパフォーマンスの重要な側面は、オブジェクト表現を正確に解釈するためのクエリへの依存である。
我々の視覚分析から,前景要素に着目した強相関クエリが蒸留結果の向上に不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 25.512519971607237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have revolutionized the object detection landscape by introducing DETRs, acclaimed for their simplicity and efficacy. Despite their advantages, the substantial size of these models poses significant challenges for practical deployment, particularly in resource-constrained environments. This paper addresses the challenge of compressing DETR by leveraging knowledge distillation, a technique that holds promise for maintaining model performance while reducing size. A critical aspect of DETRs' performance is their reliance on queries to interpret object representations accurately. Traditional distillation methods often focus exclusively on positive queries, identified through bipartite matching, neglecting the rich information present in hard-negative queries. Our visual analysis indicates that hard-negative queries, focusing on foreground elements, are crucial for enhancing distillation outcomes. To this end, we introduce a novel Group Query Selection strategy, which diverges from traditional query selection in DETR distillation by segmenting queries based on their Generalized Intersection over Union (GIoU) with ground truth objects, thereby uncovering valuable hard-negative queries for distillation. Furthermore, we present the Knowledge Distillation via Query Selection for DETR (QSKD) framework, which incorporates Attention-Guided Feature Distillation (AGFD) and Local Alignment Prediction Distillation (LAPD). These components optimize the distillation process by focusing on the most informative aspects of the teacher model's intermediate features and output. Our comprehensive experimental evaluation of the MS-COCO dataset demonstrates the effectiveness of our approach, significantly improving average precision (AP) across various DETR architectures without incurring substantial computational costs. Specifically, the AP of Conditional DETR ResNet-18 increased from 35.8 to 39.9.
- Abstract(参考訳): トランスフォーマーは、その単純さと有効性で称賛されたDETRを導入して、オブジェクト検出のランドスケープに革命をもたらした。
それらの利点にもかかわらず、これらのモデルのかなりのサイズは、特に資源に制約のある環境で、実践的なデプロイメントに重大な課題をもたらす。
本稿では, モデル性能の維持を約束する技術である知識蒸留を活用することにより, DETR圧縮の課題に対処する。
DETRのパフォーマンスの重要な側面は、オブジェクト表現を正確に解釈するためのクエリへの依存である。
伝統的な蒸留法は、しばしば正のクエリにのみ焦点を合わせ、二分詞マッチングを通じて識別され、強硬なクエリに存在する豊富な情報を無視する。
我々の視覚分析から,前景要素に着目した強相関クエリが蒸留結果の向上に不可欠であることが示唆された。
そこで本研究では,DreTR蒸留における従来の問合せ選択から,GIoU(Generalized Intersection over Union)に基づく問合せを接地真理オブジェクトに分割することにより,蒸留に有用な難解な問合せを抽出するグループクエリ選択手法を提案する。
さらに,AGFD (Attention-Guided Feature Distillation) とLAPD (Local Alignment Prediction Distillation) を組み込んだDETR (QSKD) フレームワークのクエリ選択による知識蒸留について述べる。
これらのコンポーネントは、教師モデルの中間的特徴と出力の最も有益な側面に注目して、蒸留プロセスの最適化を行う。
我々は,MS-COCOデータセットの総合的な実験により,提案手法の有効性を実証し,計算コストの大幅な増大を伴わずに,様々なDeTRアーキテクチャにおける平均精度(AP)を大幅に改善した。
具体的には、条件付きDETR ResNet-18のAPは35.8から39.9に増加した。
関連論文リスト
- Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Adversarial Score Distillation: When score distillation meets GAN [3.2794321281011394]
既存のスコア蒸留をWGAN(Wasserstein Generative Adversarial Network)パラダイムで解読する。
WGANのパラダイムでは、既存のスコア蒸留は固定された準最適判別器を使うか、不完全判別器の最適化を行うかのいずれかである。
本稿では、最適な判別器を維持し、完全な最適化目標を用いて更新するASD(Adversarial Score Distillation)を提案する。
論文 参考訳(メタデータ) (2023-12-01T17:20:47Z) - Continual Detection Transformer for Incremental Object Detection [154.8345288298059]
インクリメンタルオブジェクト検出(IOD)は、新しいオブジェクトカテゴリに対するアノテーションを備えた、フェーズ内のオブジェクト検出をトレーニングすることを目的としている。
他の段階的な設定として、IODは破滅的な忘れがちであり、知識蒸留(KD)や模範再生(ER)といった技術によってしばしば対処される。
本稿では,この文脈でKDとERを効果的に活用できるトランスフォーマーベースのIODを提案する。
論文 参考訳(メタデータ) (2023-04-06T14:38:40Z) - Q-DETR: An Efficient Low-Bit Quantized Detection Transformer [50.00784028552792]
Q-DETRのボトルネックは、我々の経験的分析によるクエリ情報の歪みから生じる。
情報ボトルネック(IB)の原理をQ-DETRの学習に一般化することで導出できる2レベル最適化問題としてDRDを定式化する。
本研究では,教師情報を蒸留所要の機能に効果的に転送し,条件情報エントロピーを最小化する,フォアグラウンド対応クエリマッチング手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:05:14Z) - Explicit and Implicit Knowledge Distillation via Unlabeled Data [5.702176304876537]
高速な計算機生成装置を代替する効率的な未ラベルサンプル選択法を提案する。
また,データ領域シフトによるラベルノイズを抑制するためのクラスドロップ機構を提案する。
実験結果から,本手法が他の最先端手法よりも高速に収束し,精度が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:10:41Z) - DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文 参考訳(メタデータ) (2022-11-17T13:35:11Z) - Knowledge Distillation for Detection Transformer with Consistent
Distillation Points Sampling [38.60121990752897]
本稿では,一貫した蒸留点サンプリングによるDETR(KD-DETR)の知識蒸留パラダイムを提案する。
KD-DETRは、ResNet-18とResNet-50のバックボーンでDAB-DETRのパフォーマンスを41.4$%$、45.7$%$mAPに向上させ、ResNet-50は2.2%の価格で教師モデルを超えた。
論文 参考訳(メタデータ) (2022-11-15T11:52:30Z) - Mind the Gap in Distilling StyleGANs [100.58444291751015]
StyleGANファミリは、非条件生成のためのGAN(Generative Adversarial Networks)として最も人気のあるものの一つである。
本稿では,StyleGAN-likeアーキテクチャの蒸留に関する総合的研究について述べる。
論文 参考訳(メタデータ) (2022-08-18T14:18:29Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。