論文の概要: Weak-to-Strong Knowledge Distillation Accelerates Visual Learning
- arxiv url: http://arxiv.org/abs/2604.15451v2
- Date: Tue, 21 Apr 2026 21:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.259011
- Title: Weak-to-Strong Knowledge Distillation Accelerates Visual Learning
- Title(参考訳): 弱々しい知識蒸留は視覚学習を加速させる
- Authors: Baiang Li, Wenhao Chai, Felix Heide,
- Abstract要約: 既存の知識蒸留法は、圧縮や最終精度の向上のために、より強い教師から弱い学生に転移する。
より弱い教師を凍結させ、早期研修にのみ蒸留を施し、学生が教師レベルのパフォーマンスを達成すれば、それをオフにする汎用的なプラグアンドプレイレシピを提案する。
- 参考スコア(独自算出の注目度): 46.34518438200826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale visual learning is increasingly limited by training cost. Existing knowledge distillation methods transfer from a stronger teacher to a weaker student for compression or final-accuracy improvement. We instead investigate distillation to accelerate the training of strong students. We propose a generalizable plug-and-play recipe that freezes a weaker teacher, applies distillation only in early training, and turns it off once the student reaches and surpasses teacher-level performance. For ImageNet and CIFAR classification, this strategy reaches target thresholds much earlier, with up to 4.8 times speedup measured by epochs. We confirm that the method generalizes to other tasks and report 1.7 times epoch speedup for object detection on the COCO dataset, and 2.5 times earlier target-FID crossing for diffusion generation on the CIFAR-10 dataset, measured in steps. These findings validate our method as a universal speedup mechanism for visual learning.
- Abstract(参考訳): 大規模な視覚学習は、トレーニングコストによってますます制限されている。
既存の知識蒸留法は、圧縮や最終精度の向上のために、より強い教師から弱い学生に転移する。
その代わりに、強い学生の訓練を加速するために蒸留を調査する。
より弱い教師を凍結させ、早期の訓練でのみ蒸留を施し、生徒が教師レベルのパフォーマンスを達成し、達成すれば、それをオフにする、汎用的なプラグアンドプレイレシピを提案する。
ImageNetとCIFARの分類では、この戦略はかなり早く目標閾値に達し、エポックによって最大4.8倍のスピードアップが測定される。
本手法は他のタスクに一般化し,COCOデータセット上でのオブジェクト検出の1.7倍の時間的高速化と,CIFAR-10データセット上での拡散生成のための目標FIDの2.5倍の高速化を報告した。
これらの知見は,視覚学習のための普遍的な高速化機構として,本手法の有効性を検証した。
関連論文リスト
- A Dynamic Knowledge Distillation Method Based on the Gompertz Curve [4.819618332195035]
本稿では,新しい動的知識蒸留フレームワークであるGompertz-CNNを紹介する。
Gompertz-CNNは、従来の知識蒸留の限界に対処するために、Gompertz成長モデルをトレーニングプロセスに統合する。
論文 参考訳(メタデータ) (2025-10-24T17:07:27Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Response-based Distillation for Incremental Object Detection [2.337183337110597]
従来の物体検出は漸進的な学習には不適当である。
新しいデータのみを用いて、よく訓練された検出モデルを直接微調整することで、破滅的な忘れを招きます。
本研究では,検出境界ボックスからの学習応答と分類予測に着目した完全応答に基づくインクリメンタル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-10-26T08:07:55Z) - Always Be Dreaming: A New Approach for Data-Free Class-Incremental
Learning [73.24988226158497]
データフリークラスインクリメンタルラーニング(DFCIL)における高インパクト問題について考察する。
そこで本研究では, 改良型クロスエントロピートレーニングと重要重み付き特徴蒸留に寄与するDFCILの新たなインクリメンタル蒸留戦略を提案する。
本手法は,共通クラスインクリメンタルベンチマークにおけるSOTA DFCIL法と比較して,最終タスク精度(絶対差)が25.1%向上する。
論文 参考訳(メタデータ) (2021-06-17T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。