論文の概要: Localization Distillation for Object Detection
- arxiv url: http://arxiv.org/abs/2102.12252v1
- Date: Wed, 24 Feb 2021 12:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 16:31:42.134651
- Title: Localization Distillation for Object Detection
- Title(参考訳): 物体検出のための局所蒸留法
- Authors: Zhaohui Zheng and Rongguang Ye and Ping Wang and Jun Wang and Dongwei
Ren and Wangmeng Zuo
- Abstract要約: 物体検出のためのローカライズ蒸留(LD)を提案する。
我々のldは、バウンディングボックスの一般局在表現を採用することで標準kdとして定式化することができる。
教師モデルと学生モデルとのギャップを埋めるための教師アシスタント(TA)戦略を提案します。
- 参考スコア(独自算出の注目度): 79.78619050578997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) has witnessed its powerful ability in learning
compact models in deep learning field, but it is still limited in distilling
localization information for object detection. Existing KD methods for object
detection mainly focus on mimicking deep features between teacher model and
student model, which not only is restricted by specific model architectures,
but also cannot distill localization ambiguity. In this paper, we first propose
localization distillation (LD) for object detection. In particular, our LD can
be formulated as standard KD by adopting the general localization
representation of bounding box. Our LD is very flexible, and is applicable to
distill localization ambiguity for arbitrary architecture of teacher model and
student model. Moreover, it is interesting to find that Self-LD, i.e.,
distilling teacher model itself, can further boost state-of-the-art
performance. Second, we suggest a teacher assistant (TA) strategy to fill the
possible gap between teacher model and student model, by which the distillation
effectiveness can be guaranteed even the selected teacher model is not optimal.
On benchmark datasets PASCAL VOC and MS COCO, our LD can consistently improve
the performance for student detectors, and also boosts state-of-the-art
detectors notably. Our source code and trained models are publicly available at
https://github.com/HikariTJU/LD
- Abstract(参考訳): 知識蒸留(KD)は、深層学習分野におけるコンパクトモデル学習の強力な能力を示しているが、それでも物体検出のための局所化情報の蒸留に限られている。
既存のkd手法は主に教師モデルと学生モデルの深い特徴を模倣することに焦点を当てているが、これは特定のモデルアーキテクチャによって制限されるだけでなく、局所的曖昧さを蒸留することができない。
本稿ではまず,物体検出のためのローカライゼーション蒸留(LD)を提案する。
特に、バウンディングボックスの一般的なローカリゼーション表現を採用することで、LDを標準KDとして定式化することができます。
このldは非常に柔軟であり, 教師モデルと学生モデルの任意のアーキテクチャに対する, 蒸留局在曖昧性に適用できる。
さらに,教師モデルそのものを蒸留するセルフLDが,最先端のパフォーマンスをさらに向上させることが興味深い。
第二に、教師モデルと生徒モデルの間に可能なギャップを埋めるための教師アシスタント(TA)戦略を提案し、選択された教師モデルが最適でない場合でも蒸留の有効性を保証することができる。
ベンチマークデータセットPASCAL VOCおよびMS COCOでは、LDは学生検出器のパフォーマンスを一貫して改善し、最先端の検出器を特に高めることができます。
ソースコードとトレーニング済みモデルは、https://github.com/HikariTju/LDで公開されています。
関連論文リスト
- Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - Causal Distillation for Language Models [23.68246698789134]
本研究は,教員の因果計算過程を模倣することを奨励する第3の目的で蒸留を増強することが有益であることを示す。
BERTの標準的な蒸留と比較すると、IITによる蒸留はウィキペディアの難易度を低下させる。
論文 参考訳(メタデータ) (2021-12-05T08:13:09Z) - Oracle Teacher: Leveraging Target Information for Better Knowledge
Distillation of CTC Models [10.941519846908697]
我々は、コネクショニスト時間分類(CTC)に基づくシーケンスモデル、すなわち、Oracle Teacherのための新しいタイプの教師モデルを導入する。
Oracle Teacherは、ターゲット情報を参照することによって、より正確なCTCアライメントを学ぶため、より最適なガイダンスを提供することができる。
CTCアルゴリズムの多対一マッピング特性に基づいて、自明な解を効果的に防止できるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-11-05T14:14:05Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。