論文の概要: Towards a Smaller Student: Capacity Dynamic Distillation for Efficient
Image Retrieval
- arxiv url: http://arxiv.org/abs/2303.09230v2
- Date: Wed, 31 May 2023 15:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 02:49:53.308572
- Title: Towards a Smaller Student: Capacity Dynamic Distillation for Efficient
Image Retrieval
- Title(参考訳): 小学生に向けて:効率的な画像検索のための容量動的蒸留
- Authors: Yi Xie, Huaidong Zhang, Xuemiao Xu, Jianqing Zhu, Shengfeng He
- Abstract要約: 従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量なネットワークを用いる。
本稿では,編集可能な表現能力を持つ学生モデルを構築するための容量動的蒸留フレームワークを提案する。
提案手法は,教師としてのResNet101を前提として,VeRi-776データセットなどの推論速度と精度が優れている。
- 参考スコア(独自算出の注目度): 49.01637233471453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous Knowledge Distillation based efficient image retrieval methods
employs a lightweight network as the student model for fast inference. However,
the lightweight student model lacks adequate representation capacity for
effective knowledge imitation during the most critical early training period,
causing final performance degeneration. To tackle this issue, we propose a
Capacity Dynamic Distillation framework, which constructs a student model with
editable representation capacity. Specifically, the employed student model is
initially a heavy model to fruitfully learn distilled knowledge in the early
training epochs, and the student model is gradually compressed during the
training. To dynamically adjust the model capacity, our dynamic framework
inserts a learnable convolutional layer within each residual block in the
student model as the channel importance indicator. The indicator is optimized
simultaneously by the image retrieval loss and the compression loss, and a
retrieval-guided gradient resetting mechanism is proposed to release the
gradient conflict. Extensive experiments show that our method has superior
inference speed and accuracy, e.g., on the VeRi-776 dataset, given the
ResNet101 as a teacher, our method saves 67.13% model parameters and 65.67%
FLOPs (around 24.13% and 21.94% higher than state-of-the-arts) without
sacrificing accuracy (around 2.11% mAP higher than state-of-the-arts).
- Abstract(参考訳): 従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量ネットワークを用いる。
しかし、軽量な学生モデルは、最も重要な初期訓練期間中に効果的な知識模倣のための十分な表現能力に欠け、最終的な性能劣化を引き起こす。
そこで,本稿では,編集可能な表現能力を有する学生モデルを構築するキャパシティ動的蒸留フレームワークを提案する。
具体的には, 留学生モデルは当初, 初期研修期間における蒸留知識を実効的に学ぶための重厚なモデルであり, 訓練中は徐々に圧縮される。
モデルのキャパシティを動的に調整するために,動的なフレームワークでは,学習可能な畳み込み層を学習モデルの各残留ブロックに挿入する。
このインジケータは画像検索損失と圧縮損失によって同時に最適化され、勾配競合を解放するために検索誘導勾配再設定機構が提案されている。
広範な実験により、例えばveri-776データセットにおいて、教師としてのresnet101が与えられたことにより、精度を犠牲にすることなく67.13%のモデルパラメータと65.67%のフロップ(24.13%、21.94%)を節約できることを示した(約2.11%)。
関連論文リスト
- Efficient Point Cloud Classification via Offline Distillation Framework and Negative-Weight Self-Distillation Technique [46.266960248570086]
本稿では,教師モデルと生徒モデルの両方の同時ロードを回避する,革新的なオフライン記録戦略を提案する。
このアプローチは教師モデルに多数の追加サンプルを投入し、データ拡張パラメータと対応するロジット出力の両方を記録する。
実験により, 提案した蒸留方式により, 学生モデルが最先端モデルに匹敵する性能を達成できることが実証された。
論文 参考訳(メタデータ) (2024-09-03T16:12:12Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Rich Feature Distillation with Feature Affinity Module for Efficient
Image Dehazing [1.1470070927586016]
この作業は、単一イメージのヘイズ除去のためのシンプルで軽量で効率的なフレームワークを導入します。
我々は、ヘテロジニアス知識蒸留の概念を用いて、軽量な事前学習された超解像モデルから豊富な「暗黒知識」情報を利用する。
本実験は, RESIDE-Standardデータセットを用いて, 合成および実世界のドメインに対する我々のフレームワークの堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-13T18:32:44Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。