論文の概要: Attention, Distillation, and Tabularization: Towards Practical Neural
Network-Based Prefetching
- arxiv url: http://arxiv.org/abs/2401.06362v2
- Date: Tue, 16 Jan 2024 09:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 23:27:05.839766
- Title: Attention, Distillation, and Tabularization: Towards Practical Neural
Network-Based Prefetching
- Title(参考訳): 注意・蒸留・語彙化:ニューラルネットワークによる実践的前処理に向けて
- Authors: Pengmiao Zhang, Neelesh Gupta, Rajgopal Kannan, Viktor K. Prasanna
- Abstract要約: 本稿では,予測精度を犠牲にすることなく,モデル複雑性と推論遅延を大幅に低減する手法を提案する。
そこで我々は,テーブルの単純な階層構造からなるプレフェッチャーであるDARTを開発した。
DARTは最先端のNNベースのPrefetchers TransFetchを33.1%、Voyagerを37.2%上回っている。
- 参考スコア(独自算出の注目度): 6.692695353937492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based Neural Networks (NN) have demonstrated their effectiveness in
accurate memory access prediction, an essential step in data prefetching.
However, the substantial computational overheads associated with these models
result in high inference latency, limiting their feasibility as practical
prefetchers. To close the gap, we propose a new approach based on
tabularization that significantly reduces model complexity and inference
latency without sacrificing prediction accuracy. Our novel tabularization
methodology takes as input a distilled, yet highly accurate attention-based
model for memory access prediction and efficiently converts its expensive
matrix multiplications into a hierarchy of fast table lookups. As an exemplar
of the above approach, we develop DART, a prefetcher comprised of a simple
hierarchy of tables. With a modest 0.09 drop in F1-score, DART reduces 99.99%
of arithmetic operations from the large attention-based model and 91.83% from
the distilled model. DART accelerates the large model inference by 170x and the
distilled model by 9.4x. DART has comparable latency and storage costs as
state-of-the-art rule-based prefetcher BO but surpasses it by 6.1% in IPC
improvement. DART outperforms state-of-the-art NN-based prefetchers TransFetch
by 33.1% and Voyager by 37.2% in terms of IPC improvement, primarily due to its
low prefetching latency.
- Abstract(参考訳): Attention-based Neural Networks (NN)は、データプリフェッチにおける重要なステップである正確なメモリアクセス予測において、その効果を実証している。
しかし、これらのモデルに関連する計算オーバーヘッドは高い推論遅延をもたらし、実用的なプリフェッチとしての可能性を制限する。
このギャップを埋めるため,予測精度を犠牲にすることなく,モデル複雑性と推論遅延を大幅に低減するタブライゼーションに基づく新しい手法を提案する。
提案手法は,メモリアクセス予測のための蒸留・高精度・高精細な注意ベースモデルを入力とし,その高価な行列乗算を高速テーブルルックアップの階層に効率的に変換する。
上記のアプローチの例として、テーブルの単純な階層から構成されるプレフィッシャーであるDARTを開発する。
F1スコアのわずか0.09ドロップで、DARTは大きな注意ベースモデルから算術演算の99.99%を減らし、蒸留モデルから91.83%を減らした。
DARTは大きなモデル推論を170倍、蒸留モデルを9.4倍加速する。
DARTのレイテンシとストレージコストは、最先端のルールベースのプレフィッシャーBOと同等だが、IPCの改善の6.1%を上回っている。
DARTは、最先端のNNベースのPrefetchers TransFetchを33.1%、Voyagerを37.2%上回っている。
関連論文リスト
- Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Phases, Modalities, Temporal and Spatial Locality: Domain Specific ML
Prefetcher for Accelerating Graph Analytics [7.52191887022819]
ドメイン固有モデルを用いたグラフ解析のためのMLベースのPrefetcherであるMPGraphを提案する。
MPGraphの新しい3つの最適化: 位相遷移のソフト検出、アクセスと時間前処理のための位相固有多モードモデル。
CSTを使用すると、MPGraphは12.52-21.23%のIPC改善を実現し、最先端の非MLプレフェッチャーBOを7.5-12.03%、MLベースのプレフェッチーVoyagerとTransFetchを3.27-4.58%上回った。
論文 参考訳(メタデータ) (2022-12-10T09:14:44Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Masked Autoencoders Enable Efficient Knowledge Distillers [31.606287119666572]
本稿では、事前訓練されたモデル、特にマスクオートエンコーダからの知識の蒸留の可能性について検討する。
教師モデルの中間特徴写像と生徒モデルの中間特徴写像との距離を最小化する。
極めて高いマスキング比であっても,教師モデルから知識をしっかりと抽出することができる。
論文 参考訳(メタデータ) (2022-08-25T17:58:59Z) - TangoBERT: Reducing Inference Cost by using Cascaded Architecture [9.496399437260678]
ケースケードモデルアーキテクチャであるTangoBERTについて述べる。
第2階層モデルを適用するかどうかの決定は、第1階層モデルによって生成される信頼スコアに基づいて行われる。
我々はTangoBERT推論CPUの高速化を4つのテキスト分類GLUEタスクと1つの読解タスクで報告する。
論文 参考訳(メタデータ) (2022-04-13T09:45:08Z) - Voxelmorph++ Going beyond the cranial vault with keypoint supervision
and multi-channel instance optimisation [8.88841928746097]
近年のLearn2Regベンチマークでは,単スケールU-Netアーキテクチャーは腹部または患者内肺登録の最先端性能に劣っている。
本稿では、この精度のギャップを大幅に減らすための2つの簡単な手順を提案する。
まず、離散化されたヒートマップを予測する新しいネットワークヘッドを備えたキーポイント・セルフスーパービジョンを用いる。
次に、複数の学習した微調整ステップを、手作りの機能とAdamオプティマイザでひとつのインスタンスに置き換える。
論文 参考訳(メタデータ) (2022-02-28T19:23:29Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。