論文の概要: ERDE: Entropy-Regularized Distillation for Early-exit
- arxiv url: http://arxiv.org/abs/2510.04856v1
- Date: Mon, 06 Oct 2025 14:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.908792
- Title: ERDE: Entropy-Regularized Distillation for Early-exit
- Title(参考訳): ERDE:エントロピー規則化蒸留
- Authors: Martial Guidez, Stefan Duffner, Yannick Alpou, Oscar Röth, Christophe Garcia,
- Abstract要約: ディープニューラルネットワークは、比較的高い効率で画像分類における最先端のパフォーマンスを実証している。
ディープニューラルネットワークは計算コストが高く、しばしばリアルタイムやエッジアプリケーションでは実用的ではない。
提案手法は, 早期出口と知識蒸留という, 確立された2つの最適化手法を統合する。
- 参考スコア(独自算出の注目度): 1.3403105494381726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although deep neural networks and in particular Convolutional Neural Networks have demonstrated state-of-the-art performance in image classification with relatively high efficiency, they still exhibit high computational costs, often rendering them impractical for real-time and edge applications. Therefore, a multitude of compression techniques have been developed to reduce these costs while maintaining accuracy. In addition, dynamic architectures have been introduced to modulate the level of compression at execution time, which is a desirable property in many resource-limited application scenarios. The proposed method effectively integrates two well-established optimization techniques: early exits and knowledge distillation, where a reduced student early-exit model is trained from a more complex teacher early-exit model. The primary contribution of this research lies in the approach for training the student early-exit model. In comparison to the conventional Knowledge Distillation loss, our approach incorporates a new entropy-based loss for images where the teacher's classification was incorrect. The proposed method optimizes the trade-off between accuracy and efficiency, thereby achieving significant reductions in computational complexity without compromising classification performance. The validity of this approach is substantiated by experimental results on image classification datasets CIFAR10, CIFAR100 and SVHN, which further opens new research perspectives for Knowledge Distillation in other contexts.
- Abstract(参考訳): ディープニューラルネットワーク、特に畳み込みニューラルネットワークは、比較的高い効率で画像分類における最先端のパフォーマンスを示しているが、それでも高い計算コストを示しており、しばしばリアルタイムやエッジアプリケーションでは実用的ではない。
そのため,精度を保ちながらコスト削減を図るため,数多くの圧縮技術が開発されている。
加えて、動的アーキテクチャは実行時に圧縮のレベルを変調するために導入され、多くのリソース制限されたアプリケーションシナリオにおいて望ましい特性である。
提案手法は,学生の早期退学モデルをより複雑な教師早期退学モデルから訓練する,早期退学と知識蒸留の2つの確立された最適化手法を効果的に統合する。
この研究の主な貢献は、学生の早期退学モデルを訓練するためのアプローチである。
従来の知識蒸留損失と比較して,教師の分類が間違っていた画像に対して,エントロピーに基づく新たな損失を取り入れた。
提案手法は,精度と効率のトレードオフを最適化し,分類性能を損なうことなく計算複雑性を大幅に低減する。
この手法の有効性は、画像分類データセットCIFAR10、CIFAR100、SVHNの実験結果によって実証され、他の文脈における知識蒸留の新しい研究視点が開かれた。
関連論文リスト
- Advancing Training Efficiency of Deep Spiking Neural Networks through Rate-based Backpropagation [8.683798989767771]
最近の知見は、ディープスパイキングニューラルネットワーク(SNN)のトレーニングにおいて、レートコーディングが代理段階に基づくバックプロパゲーション・アット・タイム(BPTT)によって取得される情報表現の第一形態であることを明らかにしている。
本稿では、BPTTの複雑さを軽減するために、レートベースの表現を活用するために特別に設計されたトレーニング戦略である、レートベースのバックプロパゲーションを提案する。
提案手法は,SNNの学習におけるメモリと計算要求を減らすために,計算グラフの合理化を図り,平均的ダイナミクスに焦点をあてることで,詳細な時間微分への依存を最小限に抑える。
論文 参考訳(メタデータ) (2024-10-15T10:46:03Z) - Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。
現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。
本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文 参考訳(メタデータ) (2024-10-07T09:08:32Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - MixedTeacher : Knowledge Distillation for fast inference textural
anomaly detection [4.243356707599485]
異常検出のための教師なしの学習は 画像処理研究の中心にある
本稿では,知識蒸留の概念に基づく新しい手法を提案する。
提案したテクスチャ異常検出器は,SOTA法と比較して,どのテクスチャの欠陥も検出し,高速な推論時間を有する。
論文 参考訳(メタデータ) (2023-06-16T14:14:20Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Initialization and Regularization of Factorized Neural Layers [23.875225732697142]
ディープネットにおける因子化層の初期化と規則化の方法を示す。
これらのスキームが翻訳と教師なしプリトレーニングの両方のパフォーマンスを向上させる方法を示しています。
論文 参考訳(メタデータ) (2021-05-03T17:28:07Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - Be Your Own Best Competitor! Multi-Branched Adversarial Knowledge
Transfer [15.499267533387039]
提案手法は,高速な画像分類とエンコーダデコーダアーキテクチャの両方に特化しており,推論過程において余分な計算オーバーヘッドを発生させることなく,小型・コンパクトなモデルの性能を向上させる。
提案手法は, 従来の自己蒸留法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-09T11:57:45Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。