論文の概要: Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2504.14307v1
- Date: Sat, 19 Apr 2025 14:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 01:31:33.557598
- Title: Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation
- Title(参考訳): 学生指導型知識蒸留を用いた確率的教師表現からの学習
- Authors: Muhammad Haseeb Aslam, Clara Martinez, Marco Pedersoli, Alessandro Koerich, Ali Etemad, Eric Granger,
- Abstract要約: 教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
- 参考スコア(独自算出の注目度): 64.15918654558816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in self-distillation have shown that when knowledge is distilled from a teacher to a student using the same deep learning (DL) architecture, the student performance can surpass the teacher particularly when the network is overparameterized and the teacher is trained with early stopping. Alternatively, ensemble learning also improves performance, although training, storing, and deploying multiple models becomes impractical as the number of models grows. Even distilling an ensemble to a single student model or weight averaging methods first requires training of multiple teacher models and does not fully leverage the inherent stochasticity for generating and distilling diversity in DL models. These constraints are particularly prohibitive in resource-constrained or latency-sensitive applications such as wearable devices. This paper proposes to train only one model and generate multiple diverse teacher representations using distillation-time dropout. However, generating these representations stochastically leads to noisy representations that are misaligned with the learned task. To overcome this problem, a novel stochastic self-distillation (SSD) training strategy is introduced for filtering and weighting teacher representation to distill from task-relevant representations only, using student-guided knowledge distillation (SGKD). The student representation at each distillation step is used as authority to guide the distillation process. Experimental results on real-world affective computing, wearable/biosignal datasets from the UCR Archive, the HAR dataset, and image classification datasets show that the proposed SSD method can outperform state-of-the-art methods without increasing the model size at both training and testing time, and incurs negligible computational complexity compared to state-of-the-art ensemble learning and weight averaging methods.
- Abstract(参考訳): 自己蒸留の進歩は、教師から同じ深層学習(DL)アーキテクチャを用いて学生に知識を蒸留した場合、特にネットワークが過度にパラメータ化され、教師が早期停止で訓練された場合、生徒のパフォーマンスが教師を上回ることを示している。
あるいは、アンサンブル学習はパフォーマンスも向上するが、モデルの数が増加するにつれて、複数のモデルのトレーニング、保存、デプロイは非現実的になる。
単一学生モデルや平均化手法にアンサンブルを蒸留しても、まず複数の教師モデルの訓練が必要であり、DLモデルの多様性の生成と蒸留に固有の確率性を十分に活用していない。
これらの制約は、ウェアラブルデバイスのようなリソース制約や遅延に敏感なアプリケーションでは特に禁じられている。
本稿では,1つのモデルのみを訓練し,蒸留時間ドロップアウトを用いて多種多様な教師表現を生成することを提案する。
しかし、これらの表現を確率的に生成すると、学習されたタスクと不一致なノイズのある表現が生まれる。
この問題を解決するために、学生誘導知識蒸留(SGKD)を用いて、課題関連表現のみを蒸留するために、教師表現をフィルタリングおよび重み付けするための新しい確率自己蒸留(SSD)訓練戦略を導入した。
各蒸留工程における学生表現は、蒸留工程を導く権限として使用される。
UCRアーカイブ、HARデータセット、画像分類データセットからのウェアラブル/バイオサインデータセットによる実世界の感情コンピューティング実験の結果、提案したSSD手法は、トレーニングとテストの両方でモデルサイズを増大させることなく最先端の手法より優れており、最先端のアンサンブル学習や平均化手法と比較して無視可能な計算複雑性を生じさせる。
関連論文リスト
- Efficient Verified Machine Unlearning For Distillation [6.363158395541767]
PURGE(Partitioned Unlearning with Retraining Guarantee for Ensembles)は、未学習と蒸留を統合した新しいフレームワークである。
理論的解析,未学習プロセスにおける重要なスピードアップの定量化,および複数のデータセットに対する実証的検証を行う。
論文 参考訳(メタデータ) (2025-03-28T15:38:07Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。