論文の概要: PaCKD: Pattern-Clustered Knowledge Distillation for Compressing Memory
Access Prediction Models
- arxiv url: http://arxiv.org/abs/2402.13441v1
- Date: Wed, 21 Feb 2024 00:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:30:59.757084
- Title: PaCKD: Pattern-Clustered Knowledge Distillation for Compressing Memory
Access Prediction Models
- Title(参考訳): packd:メモリアクセス予測モデル圧縮のためのパターンクラスタ知識蒸留
- Authors: Neelesh Gupta, Pengmiao Zhang, Rajgopal Kannan and Viktor Prasanna
- Abstract要約: PaCKDはMAPモデルを圧縮するためのパターンクラスタ化知識蒸留手法である。
PaCKDは、標準的な知識蒸留で訓練された学生モデルよりも8.70%高い結果を得る。
- 参考スコア(独自算出の注目度): 2.404163279345609
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep neural networks (DNNs) have proven to be effective models for accurate
Memory Access Prediction (MAP), a critical task in mitigating memory latency
through data prefetching. However, existing DNN-based MAP models suffer from
the challenges such as significant physical storage space and poor inference
latency, primarily due to their large number of parameters. These limitations
render them impractical for deployment in real-world scenarios. In this paper,
we propose PaCKD, a Pattern-Clustered Knowledge Distillation approach to
compress MAP models while maintaining the prediction performance. The PaCKD
approach encompasses three steps: clustering memory access sequences into
distinct partitions involving similar patterns, training large pattern-specific
teacher models for memory access prediction for each partition, and training a
single lightweight student model by distilling the knowledge from the trained
pattern-specific teachers. We evaluate our approach on LSTM, MLP-Mixer, and
ResNet models, as they exhibit diverse structures and are widely used for image
classification tasks in order to test their effectiveness in four widely used
graph applications. Compared to the teacher models with 5.406M parameters and
an F1-score of 0.4626, our student models achieve a 552$\times$ model size
compression while maintaining an F1-score of 0.4538 (with a 1.92% performance
drop). Our approach yields an 8.70% higher result compared to student models
trained with standard knowledge distillation and an 8.88% higher result
compared to student models trained without any form of knowledge distillation.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、データのプリフェッチによるメモリ遅延を軽減する重要なタスクである、正確なメモリアクセス予測(MAP)のための効果的なモデルであることが証明されている。
しかし、既存のDNNベースのMAPモデルは、大きな物理ストレージスペースや推論遅延の低さといった課題に悩まされている。
これらの制限は、現実のシナリオで展開するには実用的でない。
本稿では,予測性能を維持しつつ地図モデルを圧縮するパターンクラスタ型知識蒸留手法packdを提案する。
PaCKDアプローチでは、メモリアクセスシーケンスを同様のパターンを含む個別のパーティションにクラスタリングし、パーティション毎に大きなパターン固有の教師モデルをトレーニングし、トレーニングされたパターン固有の教師から知識を抽出して、シングル軽量の学生モデルをトレーニングする。
我々は、lstm、mlp-mixer、resnetモデルに対するアプローチを評価し、様々な構造を示し、4つの広く使われているグラフアプリケーションでの有効性をテストするために、画像分類タスクに広く使われている。
教師モデルの5.406MパラメータとF1スコアの0.4626と比較すると、F1スコアの0.4538(性能低下1.92%)を維持しながら、学生モデルは52$\times$モデルサイズ圧縮を達成した。
本手法は,標準知識蒸留法で訓練した学生モデルと比較して8.70%,無蒸留法で訓練した学生モデルより8.88%高い結果が得られる。
関連論文リスト
- MIRACLE 3D: Memory-efficient Integrated Robust Approach for Continual Learning on Point Clouds via Shape Model construction [0.4604003661048266]
本稿では,3次元オブジェクト分類におけるメモリ効率とプライバシ保護の継続学習のための新しいフレームワークを提案する。
提案手法は各クラスに対してコンパクトな形状モデルを構築し,各クラスの平均形状のみを保持するとともに,いくつかのキーモードの変動も保持する。
我々は、ModelNet40、ShapeNet、ScanNetデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-08T23:12:33Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - A Lightweight Measure of Classification Difficulty from Application Dataset Characteristics [4.220363193932374]
効率的なコサイン類似度に基づく分類困難度尺度Sを提案する。
データセットのクラス数とクラス内およびクラス間の類似度メトリクスから計算される。
この手法を実践者が、繰り返しトレーニングやテストによって、6倍から29倍の速度で効率の良いモデルを選択するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-04-09T03:27:09Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Multiple Run Ensemble Learning withLow-Dimensional Knowledge Graph
Embeddings [4.317340121054659]
知識グラフ埋め込み(KGE)モデルのためのシンプルで効果的なパフォーマンス向上戦略を提案する。
モデルのトレーニングを200の埋め込みサイズと並行して6回繰り返し、テストのために6つの別々のモデルを組み合わせています。
このアプローチにより,様々なグラフパターンをモデル化する上で,様々なモデルがよりうまく対処できることが示される。
論文 参考訳(メタデータ) (2021-04-11T12:26:50Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。