論文の概要: Towards a Smaller Student: Capacity Dynamic Distillation for Efficient
Image Retrieval
- arxiv url: http://arxiv.org/abs/2303.09230v1
- Date: Thu, 16 Mar 2023 11:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:01:01.193876
- Title: Towards a Smaller Student: Capacity Dynamic Distillation for Efficient
Image Retrieval
- Title(参考訳): 小学生に向けて:効率的な画像検索のための容量動的蒸留
- Authors: Yi Xie, Huaidong Zhang, Xuemiao Xu, Jianqing Zhu, Shengfeng He
- Abstract要約: 従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量なネットワークを用いる。
本稿では,編集可能な表現能力を持つ学生モデルを構築するための容量動的蒸留フレームワークを提案する。
提案手法は,教師としてのResNet101を前提として,VeRi-776データセットなどの推論速度と精度が優れている。
- 参考スコア(独自算出の注目度): 49.01637233471453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous Knowledge Distillation based efficient image retrieval methods
employs a lightweight network as the student model for fast inference. However,
the lightweight student model lacks adequate representation capacity for
effective knowledge imitation during the most critical early training period,
causing final performance degeneration. To tackle this issue, we propose a
Capacity Dynamic Distillation framework, which constructs a student model with
editable representation capacity. Specifically, the employed student model is
initially a heavy model to fruitfully learn distilled knowledge in the early
training epochs, and the student model is gradually compressed during the
training. To dynamically adjust the model capacity, our dynamic framework
inserts a learnable convolutional layer within each residual block in the
student model as the channel importance indicator. The indicator is optimized
simultaneously by the image retrieval loss and the compression loss, and a
retrieval-guided gradient resetting mechanism is proposed to release the
gradient conflict. Extensive experiments show that our method has superior
inference speed and accuracy, e.g., on the VeRi-776 dataset, given the
ResNet101 as a teacher, our method saves 67.13% model parameters and 65.67%
FLOPs (around 24.13% and 21.94% higher than state-of-the-arts) without
sacrificing accuracy (around 2.11% mAP higher than state-of-the-arts).
- Abstract(参考訳): 従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量ネットワークを用いる。
しかし、軽量な学生モデルは、最も重要な初期訓練期間中に効果的な知識模倣のための十分な表現能力に欠け、最終的な性能劣化を引き起こす。
そこで,本稿では,編集可能な表現能力を有する学生モデルを構築するキャパシティ動的蒸留フレームワークを提案する。
具体的には, 留学生モデルは当初, 初期研修期間における蒸留知識を実効的に学ぶための重厚なモデルであり, 訓練中は徐々に圧縮される。
モデルのキャパシティを動的に調整するために,動的なフレームワークでは,学習可能な畳み込み層を学習モデルの各残留ブロックに挿入する。
このインジケータは画像検索損失と圧縮損失によって同時に最適化され、勾配競合を解放するために検索誘導勾配再設定機構が提案されている。
広範な実験により、例えばveri-776データセットにおいて、教師としてのresnet101が与えられたことにより、精度を犠牲にすることなく67.13%のモデルパラメータと65.67%のフロップ(24.13%、21.94%)を節約できることを示した(約2.11%)。
関連論文リスト
- Rich Feature Distillation with Feature Affinity Module for Efficient
Image Dehazing [1.1470070927586016]
この作業は、単一イメージのヘイズ除去のためのシンプルで軽量で効率的なフレームワークを導入します。
我々は、ヘテロジニアス知識蒸留の概念を用いて、軽量な事前学習された超解像モデルから豊富な「暗黒知識」情報を利用する。
本実験は, RESIDE-Standardデータセットを用いて, 合成および実世界のドメインに対する我々のフレームワークの堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-13T18:32:44Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z) - Pixel Distillation: A New Knowledge Distillation Scheme for
Low-Resolution Image Recognition [85.78793763053798]
我々は、高解像度(HR)画像から学習した重いネットワークモデルから、コンパクトなネットワークモデルに有用な知識を抽出する先駆的な試みを行っている。
本稿では,知識蒸留をモデル圧縮段階と高分解能表現伝達段階に分散させるTAS(Teacher-Assistant-Student)フレームワークを提案する。
提案手法では,重度教師モデルと同等の精度で,パラメータがはるかに少なく,推論速度が速く,低解像度の入力が可能な軽量ネットワークモデルを学習することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Sparse Distillation: Speeding Up Text Classification by Using Bigger
Models [49.8019791766848]
最先端の変圧器モデルを軽量の学生モデルに拡張することは、推論時の計算コストを削減する効果的な方法である。
本稿では,学生モデルの設計空間における新しい領域を探索することにより,推論速度の限界をさらに推し進めることを目的とする。
実験の結果,RoBERTa-Large教師の授業成績の97%を6つのテキスト分類タスクのコレクションに保持していることがわかった。
論文 参考訳(メタデータ) (2021-10-16T10:04:14Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。