Fugu-MT 論文翻訳(概要): Knowledge Distillation for Detection Transformer with Consistent Distillation Points Sampling

論文の概要: Knowledge Distillation for Detection Transformer with Consistent Distillation Points Sampling

arxiv url: http://arxiv.org/abs/2211.08071v2
Date: Wed, 16 Nov 2022 03:01:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 15:13:36.689828
Title: Knowledge Distillation for Detection Transformer with Consistent Distillation Points Sampling
Title（参考訳）: 連続蒸留点サンプリングによる検出変圧器の知識蒸留
Authors: Yu Wang, Xin Li, Shengzhao Wen, Fukui Yang, Wanping Zhang, Gang Zhang, Haocheng Feng, Junyu Han, Errui Ding
Abstract要約: 本稿では,一貫した蒸留点サンプリングによるDETR(KD-DETR)の知識蒸留パラダイムを提案する。 KD-DETRは、ResNet-18とResNet-50のバックボーンでDAB-DETRのパフォーマンスを41.4$%$、45.7$%$mAPに向上させ、ResNet-50は2.2%の価格で教師モデルを超えた。
参考スコア（独自算出の注目度）: 38.60121990752897
License: http://creativecommons.org/licenses/by/4.0/
Abstract: DETR is a novel end-to-end transformer architecture object detector, which significantly outperforms classic detectors when scaling up the model size. In this paper, we focus on the compression of DETR with knowledge distillation. While knowledge distillation has been well-studied in classic detectors, there is a lack of researches on how to make it work effectively on DETR. We first provide experimental and theoretical analysis to point out that the main challenge in DETR distillation is the lack of consistent distillation points. Distillation points refer to the corresponding inputs of the predictions for student to mimic, and reliable distillation requires sufficient distillation points which are consistent between teacher and student. Based on this observation, we propose a general knowledge distillation paradigm for DETR(KD-DETR) with consistent distillation points sampling. Specifically, we decouple detection and distillation tasks by introducing a set of specialized object queries to construct distillation points. In this paradigm, we further propose a general-to-specific distillation points sampling strategy to explore the extensibility of KD-DETR. Extensive experiments on different DETR architectures with various scales of backbones and transformer layers validate the effectiveness and generalization of KD-DETR. KD-DETR boosts the performance of DAB-DETR with ResNet-18 and ResNet-50 backbone to 41.4$\%$, 45.7$\%$ mAP, respectively, which are 5.2$\%$, 3.5$\%$ higher than the baseline, and ResNet-50 even surpasses the teacher model by $2.2\%$.
Abstract（参考訳）: detrは、新しいエンドツーエンドトランスフォーマーアーキテクチャのオブジェクト検出器であり、モデルサイズをスケールアップする際の古典的な検出器を大幅に上回る。本稿では,DeTRの知識蒸留による圧縮に着目した。知識蒸留は古典的な検出器でよく研究されているが、DETRで効果的に機能させる方法の研究は乏しい。まず, 実験および理論的解析を行い, デトル蒸留における主な課題は, 一貫性のある蒸留点の欠如にあることを指摘した。蒸留点とは、生徒が模倣する予測の対応する入力を指し、信頼できる蒸留には、教師と生徒の一貫性のある十分な蒸留点が必要である。そこで本研究では,一貫した蒸留点をサンプリングしたDETR(KD-DETR)の一般知識蒸留パラダイムを提案する。具体的には, 蒸留点を構成するための特殊オブジェクトクエリの集合を導入することで, 検出・蒸留タスクを分離する。本パラダイムでは,KD-DETRの拡張性を検討するため,一般から特定の蒸留点サンプリング戦略を提案する。種々のバックボーンとトランスフォーマー層を有する異なるDETRアーキテクチャの広範な実験により、KD-DETRの有効性と一般化が検証された。 KD-DETRはDAB-DETRのパフォーマンスをResNet-18とResNet-50のバックボーンで41.4$\%$、45.7$\%$mAPに向上させ、それぞれベースラインよりも5.2$\%$、3.5$\%$高い。

関連論文リスト

CLoCKDistill: Consistent Location-and-Context-aware Knowledge Distillation for DETRs [2.7624021966289605]
本稿では,DETR検出器のためのCLoCKDistill(Consistent Location-and-Aware Knowledge Distillation)を提案する。我々は、価値あるグローバルコンテキストと長距離依存関係を含むトランスフォーマーエンコーダ出力(メモリ)を蒸留する。本手法は,学生検出器の性能を2.2%から6.4%向上させる。
論文参考訳（メタデータ） (2025-02-15T06:02:51Z)
Knowledge Distillation via Query Selection for Detection Transformer [25.512519971607237]
本稿では, 知識蒸留を利用したDETR圧縮の課題について述べる。 DETRのパフォーマンスの重要な側面は、オブジェクト表現を正確に解釈するためのクエリへの依存である。我々の視覚分析から,前景要素に着目した強相関クエリが蒸留結果の向上に不可欠であることが示唆された。
論文参考訳（メタデータ） (2024-09-10T11:49:28Z)
Dual Knowledge Distillation for Efficient Sound Event Detection [20.236008919003083]
音響信号中の特定の音とその時間的位置を認識するには,音事象検出(SED)が不可欠である。本稿では,効率的なSEDシステムの開発を目的とした,二重知識蒸留と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-05T07:30:32Z)
Learning Lightweight Object Detectors via Multi-Teacher Progressive Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文参考訳（メタデータ） (2023-08-17T17:17:08Z)
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。蒸留における因果関係から最も寄与した試料を見出した。
論文参考訳（メタデータ） (2023-05-28T06:53:41Z)
Continual Detection Transformer for Incremental Object Detection [154.8345288298059]
インクリメンタルオブジェクト検出(IOD)は、新しいオブジェクトカテゴリに対するアノテーションを備えた、フェーズ内のオブジェクト検出をトレーニングすることを目的としている。他の段階的な設定として、IODは破滅的な忘れがちであり、知識蒸留(KD)や模範再生(ER)といった技術によってしばしば対処される。本稿では,この文脈でKDとERを効果的に活用できるトランスフォーマーベースのIODを提案する。
論文参考訳（メタデータ） (2023-04-06T14:38:40Z)
Q-DETR: An Efficient Low-Bit Quantized Detection Transformer [50.00784028552792]
Q-DETRのボトルネックは、我々の経験的分析によるクエリ情報の歪みから生じる。情報ボトルネック(IB)の原理をQ-DETRの学習に一般化することで導出できる2レベル最適化問題としてDRDを定式化する。本研究では,教師情報を蒸留所要の機能に効果的に転送し,条件情報エントロピーを最小化する,フォアグラウンド対応クエリマッチング手法を提案する。
論文参考訳（メタデータ） (2023-04-01T08:05:14Z)
StereoDistill: Pick the Cream from LiDAR for Distilling Stereo-based 3D Object Detection [93.10989714186788]
ステレオ法とLiDAR法とのギャップを狭めるため,StereoDistillというクロスモーダル蒸留法を提案する。 StereoDistillの主な設計は、回帰のためのX-component Guided Distillation(XGD)と分類のためのCLD(Cross-anchor Logit Distillation)である。
論文参考訳（メタデータ） (2023-01-04T13:38:48Z)
Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文参考訳（メタデータ） (2022-11-27T05:14:03Z)
DETRDistill: A Universal Knowledge Distillation Framework for DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文参考訳（メタデータ） (2022-11-17T13:35:11Z)
ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文参考訳（メタデータ） (2022-05-18T18:05:13Z)
Spot-adaptive Knowledge Distillation [39.23627955442595]
我々はスポット適応型KD(SAKD)と呼ばれる新しい蒸留戦略を提案する。 SAKDは、全蒸留期間中のトレーニングイテレーション毎に、サンプルごとの教師ネットワーク内の蒸留スポットを適応的に決定する。 SAKDの有効性を実証するために10種類の最先端蒸留器を用いた実験を行った。
論文参考訳（メタデータ） (2022-05-05T02:21:32Z)
Decoupled Knowledge Distillation [7.049113958508325]
我々は、古典的KD損失を、ターゲットクラス知識蒸留(TCKD)と非ターゲットクラス知識蒸留(NCKD)の2つの部分に再構成する。 TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。本稿では,TCKDとNCKDがより効率的かつ柔軟に役割を果たせるためのDKD(Decoupled Knowledge Distillation)を提案する。
論文参考訳（メタデータ） (2022-03-16T15:07:47Z)
Adaptive Instance Distillation for Object Detection in Autonomous Driving [3.236217153362305]
本稿では,教師の知識を学生に選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留(AID)を提案する。また,AIDは教師モデルの性能向上に有効であることが示された。
論文参考訳（メタデータ） (2022-01-26T18:06:33Z)
G-DetKD: Towards General Distillation Framework for Object Detectors via Contrastive and Semantic-guided Feature Imitation [49.421099172544196]
そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動的に行う,意味誘導型特徴模倣手法を提案する。また,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。本手法は,(1)フレームワークのコンポーネントを別々に使用した場合に,既存の検出KD技術よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2021-08-17T07:44:27Z)
General Instance Distillation for Object Detection [12.720908566642812]
RetinaNet with ResNet-50は、データセット上のGIDによるmAPで39.1%を達成し、ベースライン36.2%を2.9%上回り、さらに38.1%APを持つResNet-101ベースの教師モデルよりも優れています。
論文参考訳（メタデータ） (2021-03-03T11:41:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。