論文の概要: A Layered Self-Supervised Knowledge Distillation Framework for Efficient Multimodal Learning on the Edge
- arxiv url: http://arxiv.org/abs/2506.07055v1
- Date: Sun, 08 Jun 2025 09:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.65256
- Title: A Layered Self-Supervised Knowledge Distillation Framework for Efficient Multimodal Learning on the Edge
- Title(参考訳): エッジ上での効率的なマルチモーダル学習のための階層型自己監督型知識蒸留フレームワーク
- Authors: Tarique Dahri, Zulfiqar Ali Memon, Zhenyu Yu, Mohd. Yamani Idna Idris, Sheheryar Khan, Sadiq Ahmad, Maged Shoman, Saddam Aziz, Rizwan Qureshi,
- Abstract要約: 本稿では,コンパクトなディープラーニングモデルを学習するための階層型自己監督知識蒸留フレームワークについて紹介する。
提案手法は,最先端PS-KD法よりも4.54%向上した。
我々のフレームワークは特にマルチモーダルセンシングとサイバー物理環境に適している。
- 参考スコア(独自算出の注目度): 2.936103029868299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Layered Self-Supervised Knowledge Distillation (LSSKD) framework for training compact deep learning models. Unlike traditional methods that rely on pre-trained teacher networks, our approach appends auxiliary classifiers to intermediate feature maps, generating diverse self-supervised knowledge and enabling one-to-one transfer across different network stages. Our method achieves an average improvement of 4.54\% over the state-of-the-art PS-KD method and a 1.14% gain over SSKD on CIFAR-100, with a 0.32% improvement on ImageNet compared to HASSKD. Experiments on Tiny ImageNet and CIFAR-100 under few-shot learning scenarios also achieve state-of-the-art results. These findings demonstrate the effectiveness of our approach in enhancing model generalization and performance without the need for large over-parameterized teacher networks. Importantly, at the inference stage, all auxiliary classifiers can be removed, yielding no extra computational cost. This makes our model suitable for deploying small language models on affordable low-computing devices. Owing to its lightweight design and adaptability, our framework is particularly suitable for multimodal sensing and cyber-physical environments that require efficient and responsive inference. LSSKD facilitates the development of intelligent agents capable of learning from limited sensory data under weak supervision.
- Abstract(参考訳): 本稿では,コンパクトな深層学習モデルを学習するためのLSSKD(Layered Self-Supervised Knowledge Distillation)フレームワークを紹介する。
事前学習された教師ネットワークに依存する従来の手法とは異なり、我々のアプローチでは、中間機能マップに補助分類器を付加し、多様な自己教師付き知識を生成し、異なるネットワークステージ間で1対1の伝達を可能にする。
CIFAR-100では,最新のPS-KD法よりも4.54\%, SSKDでは1.14%, ImageNetでは0.32%, HASSKDでは0.32%向上した。
Tiny ImageNetとCIFAR-100を数ショットの学習シナリオで実験することで、最先端の結果が得られる。
これらの結果から,大規模なオーバーパラメータ化教師ネットワークを必要とせず,モデル一般化と性能向上へのアプローチの有効性が示唆された。
重要なことは、推論段階では、全ての補助分類器を除去することができ、余分な計算コストは発生しない。
これにより、安価な低計算デバイスに小さな言語モデルをデプロイするのに適しています。
その軽量な設計と適応性のため、我々のフレームワークは、効率的で応答性の高い推論を必要とするマルチモーダルセンシングとサイバー物理環境に特に適している。
LSSKDは、弱い監督下で限られた感覚データから学習できる知的エージェントの開発を促進する。
関連論文リスト
- Knowledge Distillation: Enhancing Neural Network Compression with Integrated Gradients [0.0]
本稿では,知識蒸留(KD)と統合勾配(IG)を併用した機械学習フレームワークを提案する。
本稿では,教師モデルから事前計算されたIGマップを訓練画像上にオーバーレイして,コンパクトな学生モデルを重要な特徴表現へ導く,新たなデータ拡張戦略を提案する。
CIFAR-10の実験は,本手法の有効性を実証している: MobileNet-V2 教師の4.1倍圧縮した学生モデルでは,標準の 91.4% と従来の KD アプローチを上回り,分類精度92.5% を達成し,推論遅延を 140 ms から 13 ms-a 10fold に低減した。
論文 参考訳(メタデータ) (2025-03-17T10:07:50Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification [0.0]
まず、ラベルのない大量のデータから共通特徴表現を学習できるように、自己スーパービジョンでモデルを事前訓練する。
その後、数ショットのデータセットMini-ImageNetで微調整を行い、限られたデータの下でモデルの精度と一般化能力を改善する。
論文 参考訳(メタデータ) (2024-11-19T01:01:56Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - BD-KD: Balancing the Divergences for Online Knowledge Distillation [11.874952582465601]
我々は、ロジットベースのオンラインKDのためのフレームワークであるBD-KD(Balanced Divergence Knowledge Distillation)を紹介する。
BD-KDは精度とモデルのキャリブレーションを同時に強化し、ポストホックリカレーション技術の必要性を排除している。
本手法は,従来のオンライン蒸留の損失を学生と教員の両方の損失に適応させることで,学生中心のトレーニングを促進する。
論文 参考訳(メタデータ) (2022-12-25T22:27:32Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。