論文の概要: Structural Knowledge Distillation for Object Detection
- arxiv url: http://arxiv.org/abs/2211.13133v1
- Date: Wed, 23 Nov 2022 17:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:04:47.033046
- Title: Structural Knowledge Distillation for Object Detection
- Title(参考訳): 物体検出のための構造知識蒸留
- Authors: Philip de Rijk, Lukas Schneider, Marius Cordts, Dariu M. Gavrila
- Abstract要約: 構造的類似性(SSIM)に基づく画素単位独立lp-normの置き換えを提案する。
本手法は計算オーバーヘッドが少なく,実装が容易であると同時に,標準の lp-norm を著しく上回っている。
- 参考スコア(独自算出の注目度): 2.690687471762886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a well-known training paradigm in deep neural
networks where knowledge acquired by a large teacher model is transferred to a
small student. KD has proven to be an effective technique to significantly
improve the student's performance for various tasks including object detection.
As such, KD techniques mostly rely on guidance at the intermediate feature
level, which is typically implemented by minimizing an lp-norm distance between
teacher and student activations during training. In this paper, we propose a
replacement for the pixel-wise independent lp-norm based on the structural
similarity (SSIM). By taking into account additional contrast and structural
cues, feature importance, correlation and spatial dependence in the feature
space are considered in the loss formulation. Extensive experiments on MSCOCO
demonstrate the effectiveness of our method across different training schemes
and architectures. Our method adds only little computational overhead, is
straightforward to implement and at the same time it significantly outperforms
the standard lp-norms. Moreover, more complex state-of-the-art KD methods using
attention-based sampling mechanisms are outperformed, including a +3.5 AP gain
using a Faster R-CNN R-50 compared to a vanilla model.
- Abstract(参考訳): 知識蒸留(KD)は、大きな教師モデルによって得られた知識を小学生に伝達するディープニューラルネットワークにおいてよく知られた訓練パラダイムである。
kdは、オブジェクト検出を含む様々なタスクにおける学生のパフォーマンスを大幅に改善する効果的な技術であることが証明されている。
したがって、kd技法は主に中間的特徴レベルでの指導に依存しており、訓練中に教師と生徒のアクティベーションの間のlpノルム距離を最小化することで実装される。
本稿では,構造的類似性(SSIM)に基づく画素単位独立lp-normの置き換えを提案する。
付加的なコントラストと構造的手がかりを考慮し, 特徴空間における特徴の重要性, 相関, 空間依存性を考慮する。
MSCOCOに関する大規模な実験は、異なるトレーニングスキームとアーキテクチャにわたる手法の有効性を実証している。
本手法は計算オーバーヘッドが少なく,実装が容易であると同時に,標準の lp-norm を著しく上回っている。
さらに、注意に基づくサンプリング機構を用いたより複雑な最先端KD手法は、バニラモデルに比べて高速なR-CNN R-50を用いた+3.5APゲインを含む性能が優れている。
関連論文リスト
- TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - Boosting Light-Weight Depth Estimation Via Knowledge Distillation [21.93879961636064]
本稿では,最小限の計算資源を用いて深度マップを正確に推定できる軽量ネットワークを提案する。
モデル複雑性を最大に低減するコンパクトなモデルアーキテクチャを設計することで、これを実現する。
本手法は, パラメータの1%しか使用せず, 最先端手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-05-13T08:42:42Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。