論文の概要: Single-Teacher View Augmentation: Boosting Knowledge Distillation via Angular Diversity
- arxiv url: http://arxiv.org/abs/2510.22480v1
- Date: Sun, 26 Oct 2025 01:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.969287
- Title: Single-Teacher View Augmentation: Boosting Knowledge Distillation via Angular Diversity
- Title(参考訳): 単教師ビューの強化:Angularの多様性による知識蒸留の促進
- Authors: Seonghoon Yu, Dongjun Nam, Dina Katabi, Jeany Son,
- Abstract要約: 知識蒸留(KD)は、大容量の高能力教師から知識を伝達することで、軽量な学生モデルを訓練することを目的としている。
近年の研究では,多様な教師の視点を活用することで,蒸留性能が著しく向上することが示されている。
そこで本研究では,教師1人に複数のブランチをアタッチすることで,多様なマルチビューを生成するKDのための,コスト効率の高い知識向上手法を提案する。
- 参考スコア(独自算出の注目度): 20.479130509494272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) aims to train a lightweight student model by transferring knowledge from a large, high-capacity teacher. Recent studies have shown that leveraging diverse teacher perspectives can significantly improve distillation performance; however, achieving such diversity typically requires multiple teacher networks, leading to high computational costs. In this work, we propose a novel cost-efficient knowledge augmentation method for KD that generates diverse multi-views by attaching multiple branches to a single teacher. To ensure meaningful semantic variation across multi-views, we introduce two angular diversity objectives: 1) constrained inter-angle diversify loss, which maximizes angles between augmented views while preserving proximity to the original teacher output, and 2) intra-angle diversify loss, which encourages an even distribution of views around the original output. The ensembled knowledge from these angularly diverse views, along with the original teacher, is distilled into the student. We further theoretically demonstrate that our objectives increase the diversity among ensemble members and thereby reduce the upper bound of the ensemble's expected loss, leading to more effective distillation. Experimental results show that our method surpasses an existing knowledge augmentation method across diverse configurations. Moreover, the proposed method is compatible with other KD frameworks in a plug-and-play fashion, providing consistent improvements in generalization performance.
- Abstract(参考訳): 知識蒸留(KD)は、大容量の高能力教師から知識を伝達することで、軽量な学生モデルを訓練することを目的としている。
近年の研究では、多様な教師の視点を活用することで蒸留性能が大幅に向上することが示されているが、そのような多様性を達成するには、典型的には複数の教師ネットワークが必要であるため、計算コストが高い。
そこで本研究では,複数のブランチを1つの教師にアタッチすることで,多様なマルチビューを生成するKDのための,コスト効率の高い知識向上手法を提案する。
多視点間で意味のある意味的変動を確実にするために,2つの角度の多様性目標を導入する。
1)教師の出力に近づきつつ、拡張ビュー間の角度を最大化する制約付きアングル間多角化損失
2) 角度内損失は、元の出力に関するビューの均等な分布を促す。
これらの角度の多様さから得られた知識と原教師は、学生に蒸留される。
さらに,本研究の目的は, アンサンブル部材の多様性を高め, アンサンブルが期待する損失の上限を下げることによって, より効果的に蒸留できることを理論的に示す。
実験結果から,本手法は多様な構成にまたがる既存の知識向上手法を超越していることがわかった。
さらに,提案手法は他のKDフレームワークとプラグイン・アンド・プレイ方式で互換性があり,一般化性能が一貫した改善を提供する。
関連論文リスト
- Distilling Invariant Representations with Dual Augmentation [6.24302896438145]
教師モデルと学生モデルの両方において、不変な特徴学習を促進するために、二重強化戦略を導入する。
我々の手法は、蒸留中に両方のモデルに適用された異なる拡張を活用し、学生に堅牢で伝達可能な特徴をつかむよう促す。
論文 参考訳(メタデータ) (2024-10-12T10:27:23Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - Channel Self-Supervision for Online Knowledge Distillation [14.033675223173933]
オンライン知識蒸留(CSS)のための新しいオンライン知識蒸留法, textbfChannel textbfSelf-textbfSupervisionを提案する。
我々は,マルチブランチ構造を構築し,自己教師付き学習を通じて分岐間多様性を向上させる。
提案手法はOKDDipよりも多様性が高く,PCLのような最先端技術でも高い性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-22T12:35:20Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Adaptive Multi-Teacher Multi-level Knowledge Distillation [11.722728148523366]
適応型多段階知識蒸留学習フレームワーク(AMTML-KD)を提案する。
i)各教師と潜在表現を関連付けて、インスタンスレベルの教師の重要性の重みを適応的に学習する。
そのため、学生モデルはAMMTML-KDを介して複数の教師から多レベルの知識を学ぶことができます。
論文 参考訳(メタデータ) (2021-03-06T08:18:16Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。