論文の概要: Context-Aware Knowledge Distillation with Adaptive Weighting for Image Classification
- arxiv url: http://arxiv.org/abs/2509.05319v1
- Date: Sat, 30 Aug 2025 09:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.419316
- Title: Context-Aware Knowledge Distillation with Adaptive Weighting for Image Classification
- Title(参考訳): 画像分類のための適応重み付き文脈認識知識蒸留
- Authors: Zhengda Li,
- Abstract要約: アダプティブ・ナレッジ蒸留(Adaptive Knowledge Distillation, AKD)は、大規模教師ネットワークからより小さな学生モデルへ知識を伝達する技術である。
トレーニング中に自動的に学習し、最適化できる、学習可能なパラメータとしてアルファを作成します。
提案手法は, 固定重KDベースラインよりも精度が高く, より安定な収束性が得られる。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is a widely used technique to transfer knowledge from a large teacher network to a smaller student model. Traditional KD uses a fixed balancing factor alpha as a hyperparameter to combine the hard-label cross-entropy loss with the soft-label distillation loss. However, a static alpha is suboptimal because the optimal trade-off between hard and soft supervision can vary during training. In this work, we propose an Adaptive Knowledge Distillation (AKD) framework. First we try to make alpha as learnable parameter that can be automatically learned and optimized during training. Then we introduce a formula to reflect the gap between the student and the teacher to compute alpha dynamically, guided by student-teacher discrepancies, and further introduce a Context-Aware Module (CAM) using MLP + Attention to adaptively reweight class-wise teacher outputs. Experiments on CIFAR-10 with ResNet-50 as teacher and ResNet-18 as student demonstrate that our approach achieves superior accuracy compared to fixed-weight KD baselines, and yields more stable convergence.
- Abstract(参考訳): 知識蒸留(KD)は、大規模な教師ネットワークからより小さな学生モデルへ知識を伝達する技術として広く用いられている。
従来のKDは、ハードラベルのクロスエントロピー損失とソフトラベルの蒸留損失を組み合わせるために、固定バランス係数αをハイパーパラメータとして用いた。
しかし、ハードとソフトの間の最適なトレードオフはトレーニング中に異なるため、静的アルファは準最適である。
本研究では,適応的知識蒸留(AKD)フレームワークを提案する。
まず、アルファを学習可能なパラメータとして、トレーニング中に自動的に学習し、最適化できるようにします。
次に, 教師と教師のギャップを反映した公式を導入し, 生徒と教師の差分を動的に計算し, さらに, MLP + Attention を用いた文脈認識モジュール (CAM) を導入し, クラスワイド教師の出力を適応的に調整する。
教員としてResNet-50を,学生としてResNet-18を併用したCIFAR-10実験により,固定重KDベースラインに比べて精度が向上し,より安定した収束が得られることを示した。
関連論文リスト
- PLD: A Choice-Theoretic List-Wise Knowledge Distillation [14.801268227422517]
我々は,教師のロジットを「価値」スコアと解釈することで,プラケット・ルーシモデルの下で知識蒸留をリキャストする。
そこで我々は,教師モデルがクラスの全ランキングに関する知識を伝達する,重み付きリストレベルのランキング損失であるPlockett-Luce Distillation (PLD)を紹介した。
論文 参考訳(メタデータ) (2025-06-14T15:31:54Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。