論文の概要: Mamba base PKD for efficient knowledge compression
- arxiv url: http://arxiv.org/abs/2503.01727v1
- Date: Mon, 03 Mar 2025 16:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:32.939738
- Title: Mamba base PKD for efficient knowledge compression
- Title(参考訳): 効率的な知識圧縮のためのマンバベースPKD
- Authors: José Medina, Amnir Hadachi, Paul Honeine, Abdelaziz Bensrhair,
- Abstract要約: 本稿では,プログレッシブ・ナレッジ蒸留(PKD)プロセスにマンバ・アーキテクチャを統合するための革新的なアプローチを提案する。
提案フレームワークは,マンバブロックを用いて設計した大規模教師モデルを,段階的に小さな学生モデルに蒸留する。
各学生モデルは、Mambaブロック内で選択状態空間モデル(S-SSM)を使用して訓練され、計算複雑性を減らしながら重要な入力面に焦点を当てる。
- 参考スコア(独自算出の注目度): 6.613505089895833
- License:
- Abstract: Deep neural networks (DNNs) have remarkably succeeded in various image processing tasks. However, their large size and computational complexity present significant challenges for deploying them in resource-constrained environments. This paper presents an innovative approach for integrating Mamba Architecture within a Progressive Knowledge Distillation (PKD) process to address the challenge of reducing model complexity while maintaining accuracy in image classification tasks. The proposed framework distills a large teacher model into progressively smaller student models, designed using Mamba blocks. Each student model is trained using Selective-State-Space Models (S-SSM) within the Mamba blocks, focusing on important input aspects while reducing computational complexity. The work's preliminary experiments use MNIST and CIFAR-10 as datasets to demonstrate the effectiveness of this approach. For MNIST, the teacher model achieves 98% accuracy. A set of seven student models as a group retained 63% of the teacher's FLOPs, approximating the teacher's performance with 98% accuracy. The weak student used only 1% of the teacher's FLOPs and maintained 72% accuracy. Similarly, for CIFAR-10, the students achieved 1% less accuracy compared to the teacher, with the small student retaining 5% of the teacher's FLOPs to achieve 50% accuracy. These results confirm the flexibility and scalability of Mamba Architecture, which can be integrated into PKD, succeeding in the process of finding students as weak learners. The framework provides a solution for deploying complex neural networks in real-time applications with a reduction in computational cost.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、様々な画像処理タスクで著しく成功している。
しかし、その大きなサイズと計算の複雑さは、リソースに制約のある環境にデプロイする上で大きな課題をもたらしている。
本稿では, 画像分類タスクにおける精度を維持しつつ, モデル複雑性を低減することの課題に対処するため, プログレッシブ知識蒸留(PKD)プロセスにマンバアーキテクチャを統合するための革新的なアプローチを提案する。
提案フレームワークは,マンバブロックを用いて設計した大規模教師モデルを,段階的に小さな学生モデルに蒸留する。
各学生モデルは、Mambaブロック内で選択状態空間モデル(S-SSM)を使用して訓練され、計算複雑性を減らしながら重要な入力面に焦点を当てる。
この研究の予備実験では、MNISTとCIFAR-10をデータセットとして使用し、このアプローチの有効性を実証した。
MNISTの場合、教師モデルは98%の精度が得られる。
教師のFLOPの63%を保持し、教師のパフォーマンスを98%の精度で評価した。
弱い生徒は教師のFLOPの1%しか使用せず、72%の精度を維持した。
同様に、CIFAR-10では、小学生は教師のFLOPの5%を保持し、50%の精度を達成した。
これらの結果は,PKDに組み込むことができるMamba Architectureの柔軟性と拡張性を確認し,学生を弱い学習者と見なすプロセスに成功している。
このフレームワークは、計算コストを削減して、複雑なニューラルネットワークをリアルタイムアプリケーションにデプロイするソリューションを提供する。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - PaCKD: Pattern-Clustered Knowledge Distillation for Compressing Memory
Access Prediction Models [2.404163279345609]
PaCKDはMAPモデルを圧縮するためのパターンクラスタ化知識蒸留手法である。
PaCKDは、標準的な知識蒸留で訓練された学生モデルよりも8.70%高い結果を得る。
論文 参考訳(メタデータ) (2024-02-21T00:24:34Z) - Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments [4.541309099803903]
本研究では,超微調整大言語モデル(LLM)の知識蒸留(KD)手法を提案する。
リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。
論文 参考訳(メタデータ) (2023-12-26T01:24:25Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - DisCo: Effective Knowledge Distillation For Contrastive Learning of
Sentence Embeddings [36.37939188680754]
ディスティルコントラスト(DisCo)と呼ばれる知識蒸留フレームワークを提案する。
DisCoは、大きな文埋め込みモデルの能力を、大きな未ラベルデータ上で小さな学生モデルに転送する。
また,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
論文 参考訳(メタデータ) (2021-12-10T16:11:23Z) - Boosting Light-Weight Depth Estimation Via Knowledge Distillation [21.93879961636064]
本稿では,最小限の計算資源を用いて深度マップを正確に推定できる軽量ネットワークを提案する。
モデル複雑性を最大に低減するコンパクトなモデルアーキテクチャを設計することで、これを実現する。
本手法は, パラメータの1%しか使用せず, 最先端手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-05-13T08:42:42Z) - Online Ensemble Model Compression using Knowledge Distillation [51.59021417947258]
本稿では,学生アンサンブルからなる知識蒸留に基づくモデル圧縮フレームワークを提案する。
圧縮された各学生モデルに対して同時に学習したアンサンブル知識の蒸留を可能にする。
フレームワークの有効性を検証するために,最先端の分類モデルを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2020-11-15T04:46:29Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。