論文の概要: Expandable Residual Approximation for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2508.16050v1
- Date: Fri, 22 Aug 2025 02:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.230737
- Title: Expandable Residual Approximation for Knowledge Distillation
- Title(参考訳): 知識蒸留のための拡張可能な残留近似
- Authors: Zhaoyi Yan, Binghui Chen, Yunfan Liu, Qixiang Ye,
- Abstract要約: 知識蒸留は、大規模教師モデルから軽量モデルへ知識を伝達することを目的としている。
教師と生徒の間の固有の学習能力のギャップは、知識の伝達を妨げていることが多い。
本稿では,残留知識の近似を複数のステップに分解する新しいKD手法である拡張可能な残留近似(ERA)を提案する。
- 参考スコア(独自算出の注目度): 44.146649875415754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) aims to transfer knowledge from a large-scale teacher model to a lightweight one, significantly reducing computational and storage requirements. However, the inherent learning capacity gap between the teacher and student often hinders the sufficient transfer of knowledge, motivating numerous studies to address this challenge. Inspired by the progressive approximation principle in the Stone-Weierstrass theorem, we propose Expandable Residual Approximation (ERA), a novel KD method that decomposes the approximation of residual knowledge into multiple steps, reducing the difficulty of mimicking the teacher's representation through a divide-and-conquer approach. Specifically, ERA employs a Multi-Branched Residual Network (MBRNet) to implement this residual knowledge decomposition. Additionally, a Teacher Weight Integration (TWI) strategy is introduced to mitigate the capacity disparity by reusing the teacher's head weights. Extensive experiments show that ERA improves the Top-1 accuracy on the ImageNet classification benchmark by 1.41% and the AP on the MS COCO object detection benchmark by 1.40, as well as achieving leading performance across computer vision tasks. Codes and models are available at https://github.com/Zhaoyi-Yan/ERA.
- Abstract(参考訳): 知識蒸留(KD)は、大規模教師モデルから軽量モデルへ知識を伝達することを目的としており、計算と記憶の要求を大幅に削減することを目的としている。
しかし、教師と生徒の固有の学習能力のギャップは知識の伝達を妨げ、この課題に対処するために多くの研究を動機付けている。
ストーン・ワイエルシュトラスの定理における漸進的な近似原理に着想を得て,残留知識の近似を複数のステップに分解する新しいKD法である拡張可能な残留近似(ERA)を提案する。
具体的には,Multi-Branched Residual Network (MBRNet) を用いて,この残留知識分解を実装している。
また、教師の頭重を再利用して能力格差を軽減するため、教師体重統合(TWI)戦略を導入する。
大規模な実験により、ERAはImageNet分類ベンチマークのTop-1精度を1.41%改善し、MS COCOオブジェクト検出ベンチマークのAPを1.40倍改善し、コンピュータビジョンタスクにおける主要なパフォーマンスを達成した。
コードとモデルはhttps://github.com/Zhaoyi-Yan/ERA.comで公開されている。
関連論文リスト
- Cross-View Consistency Regularisation for Knowledge Distillation [13.918476599394603]
この研究は、半教師付き学習のような分野におけるクロスビュー学習の成功に触発されている。
標準ロジット蒸留フレームワークにインテリアビューおよびクロスビューレギュラー化を導入する。
また,教師の蒸留信号の品質向上のために,信頼性に基づくソフトラベルマイニングを実施している。
論文 参考訳(メタデータ) (2024-12-21T05:41:47Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - Knowledge Distillation with Deep Supervision [6.8080936803807734]
本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。
DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
論文 参考訳(メタデータ) (2022-02-16T03:58:21Z) - Online Knowledge Distillation for Efficient Pose Estimation [37.81478634850458]
一段階的に人間の詩構造知識を蒸留し,新しいオンライン知識蒸留フレームワークについて検討する。
OKDHPは単一のマルチブランチネットワークをトレーニングし、予測されたヒートマップをそれぞれ取得する。
画素ワイドのKullback-Leibler分散を利用して、対象ヒートマップと予測値との差を最小限に抑える。
論文 参考訳(メタデータ) (2021-08-04T14:49:44Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。