Fugu-MT 論文翻訳(概要): PaCKD: Pattern-Clustered Knowledge Distillation for Compressing Memory Access Prediction Models

論文の概要: PaCKD: Pattern-Clustered Knowledge Distillation for Compressing Memory Access Prediction Models

arxiv url: http://arxiv.org/abs/2402.13441v1
Date: Wed, 21 Feb 2024 00:24:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 17:30:59.757084
Title: PaCKD: Pattern-Clustered Knowledge Distillation for Compressing Memory Access Prediction Models
Title（参考訳）: packd:メモリアクセス予測モデル圧縮のためのパターンクラスタ知識蒸留
Authors: Neelesh Gupta, Pengmiao Zhang, Rajgopal Kannan and Viktor Prasanna
Abstract要約: PaCKDはMAPモデルを圧縮するためのパターンクラスタ化知識蒸留手法である。 PaCKDは、標準的な知識蒸留で訓練された学生モデルよりも8.70%高い結果を得る。
参考スコア（独自算出の注目度）: 2.404163279345609
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Deep neural networks (DNNs) have proven to be effective models for accurate Memory Access Prediction (MAP), a critical task in mitigating memory latency through data prefetching. However, existing DNN-based MAP models suffer from the challenges such as significant physical storage space and poor inference latency, primarily due to their large number of parameters. These limitations render them impractical for deployment in real-world scenarios. In this paper, we propose PaCKD, a Pattern-Clustered Knowledge Distillation approach to compress MAP models while maintaining the prediction performance. The PaCKD approach encompasses three steps: clustering memory access sequences into distinct partitions involving similar patterns, training large pattern-specific teacher models for memory access prediction for each partition, and training a single lightweight student model by distilling the knowledge from the trained pattern-specific teachers. We evaluate our approach on LSTM, MLP-Mixer, and ResNet models, as they exhibit diverse structures and are widely used for image classification tasks in order to test their effectiveness in four widely used graph applications. Compared to the teacher models with 5.406M parameters and an F1-score of 0.4626, our student models achieve a 552$\times$ model size compression while maintaining an F1-score of 0.4538 (with a 1.92% performance drop). Our approach yields an 8.70% higher result compared to student models trained with standard knowledge distillation and an 8.88% higher result compared to student models trained without any form of knowledge distillation.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は、データのプリフェッチによるメモリ遅延を軽減する重要なタスクである、正確なメモリアクセス予測(MAP)のための効果的なモデルであることが証明されている。しかし、既存のDNNベースのMAPモデルは、大きな物理ストレージスペースや推論遅延の低さといった課題に悩まされている。これらの制限は、現実のシナリオで展開するには実用的でない。本稿では,予測性能を維持しつつ地図モデルを圧縮するパターンクラスタ型知識蒸留手法packdを提案する。 PaCKDアプローチでは、メモリアクセスシーケンスを同様のパターンを含む個別のパーティションにクラスタリングし、パーティション毎に大きなパターン固有の教師モデルをトレーニングし、トレーニングされたパターン固有の教師から知識を抽出して、シングル軽量の学生モデルをトレーニングする。我々は、lstm、mlp-mixer、resnetモデルに対するアプローチを評価し、様々な構造を示し、4つの広く使われているグラフアプリケーションでの有効性をテストするために、画像分類タスクに広く使われている。教師モデルの5.406MパラメータとF1スコアの0.4626と比較すると、F1スコアの0.4538(性能低下1.92%)を維持しながら、学生モデルは52$\times$モデルサイズ圧縮を達成した。本手法は,標準知識蒸留法で訓練した学生モデルと比較して8.70%,無蒸留法で訓練した学生モデルより8.88%高い結果が得られる。

関連論文リスト

Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文参考訳（メタデータ） (2025-06-18T15:26:43Z)
CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation [57.91828170220308]
本稿では,大規模視覚基盤モデル(LVFM)を効果的に活用し,エッジモデルの性能を向上させる知識蒸留手法であるCustomKDを提案する。我々のシンプルで効果的なCustomKDは、LVFMに固有のよく一般化された特徴を、モデルの違いを減らすために、与えられた学生モデルにカスタマイズする。
論文参考訳（メタデータ） (2025-03-23T23:53:08Z)
MIRACLE 3D: Memory-efficient Integrated Robust Approach for Continual Learning on Point Clouds via Shape Model construction [0.4604003661048266]
本稿では,3次元オブジェクト分類におけるメモリ効率とプライバシ保護の継続学習のための新しいフレームワークを提案する。提案手法は各クラスに対してコンパクトな形状モデルを構築し,各クラスの平均形状のみを保持するとともに,いくつかのキーモードの変動も保持する。我々は、ModelNet40、ShapeNet、ScanNetデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文参考訳（メタデータ） (2024-10-08T23:12:33Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
A Lightweight Measure of Classification Difficulty from Application Dataset Characteristics [4.220363193932374]
効率的なコサイン類似度に基づく分類困難度尺度Sを提案する。データセットのクラス数とクラス内およびクラス間の類似度メトリクスから計算される。この手法を実践者が、繰り返しトレーニングやテストによって、6倍から29倍の速度で効率の良いモデルを選択するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2024-04-09T03:27:09Z)
Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments [4.541309099803903]
本研究では,超微調整大言語モデル(LLM)の知識蒸留(KD)手法を提案する。リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。
論文参考訳（メタデータ） (2023-12-26T01:24:25Z)
Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文参考訳（メタデータ） (2023-09-18T06:38:24Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Incremental Online Learning Algorithms Comparison for Gesture and Visual Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文参考訳（メタデータ） (2022-09-01T17:05:20Z)
Knowledge Distillation with Representative Teacher Keys Based on Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文参考訳（メタデータ） (2022-06-26T05:08:50Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
Multiple Run Ensemble Learning withLow-Dimensional Knowledge Graph Embeddings [4.317340121054659]
知識グラフ埋め込み(KGE)モデルのためのシンプルで効果的なパフォーマンス向上戦略を提案する。モデルのトレーニングを200の埋め込みサイズと並行して6回繰り返し、テストのために6つの別々のモデルを組み合わせています。このアプローチにより,様々なグラフパターンをモデル化する上で,様々なモデルがよりうまく対処できることが示される。
論文参考訳（メタデータ） (2021-04-11T12:26:50Z)
Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文参考訳（メタデータ） (2020-12-11T08:56:39Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。