論文の概要: Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning
- arxiv url: http://arxiv.org/abs/2307.07631v1
- Date: Fri, 14 Jul 2023 21:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 18:57:36.929232
- Title: Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning
- Title(参考訳): ディープラーニングのモデルサイズ非依存, 計算自由, 記憶に基づく推論に向けて
- Authors: Davide Giacomini, Maeesha Binte Hashem, Jeremiah Suarez, Swarup
Bhunia, and Amit Ranjan Trivedi
- Abstract要約: 本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
- 参考スコア(独自算出の注目度): 5.41530201129053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of deep neural networks has significantly improved
various tasks, such as image and speech recognition. However, as the complexity
of these models increases, so does the computational cost and the number of
parameters, making it difficult to deploy them on resource-constrained devices.
This paper proposes a novel memorization-based inference (MBI) that is compute
free and only requires lookups. Specifically, our work capitalizes on the
inference mechanism of the recurrent attention model (RAM), where only a small
window of input domain (glimpse) is processed in a one time step, and the
outputs from multiple glimpses are combined through a hidden vector to
determine the overall classification output of the problem. By leveraging the
low-dimensionality of glimpse, our inference procedure stores key value pairs
comprising of glimpse location, patch vector, etc. in a table. The computations
are obviated during inference by utilizing the table to read out key-value
pairs and performing compute-free inference by memorization. By exploiting
Bayesian optimization and clustering, the necessary lookups are reduced, and
accuracy is improved. We also present in-memory computing circuits to quickly
look up the matching key vector to an input query. Compared to competitive
compute-in-memory (CIM) approaches, MBI improves energy efficiency by almost
2.7 times than multilayer perceptions (MLP)-CIM and by almost 83 times than
ResNet20-CIM for MNIST character recognition.
- Abstract(参考訳): ディープニューラルネットワークの急速な進歩は、画像や音声認識などの様々なタスクを大幅に改善した。
しかし、これらのモデルの複雑さが増すにつれて、計算コストやパラメータの数も増大し、リソースに制約されたデバイスへのデプロイが困難になる。
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、入力領域(glimpse)の小さなウィンドウのみを1つの時間ステップで処理し、複数のスピープからの出力を隠れたベクトルで組み合わせて問題の全体的な分類出力を決定するリカレント注意モデル(ram)の推論機構を活かす。
視認の低次元を活用することで,視認位置やパッチベクトルなどからなるキー値ペアをテーブルに格納する。
テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を行うことで、計算は推論中に省略される。
ベイズ最適化とクラスタリングを利用して、必要なルックアップを削減し、精度を向上する。
また,入力クエリに対する一致鍵ベクトルを高速に調べるために,メモリ内計算回路も提示する。
競合コンピューティングインメモリ(CIM)アプローチと比較して、MBIはマルチレイヤ認識(MLP)-CIMの約2.7倍、MNIST文字認識のResNet20-CIMの約83倍のエネルギー効率を向上させる。
関連論文リスト
- RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。
評価の結果,RetrievalAttentionは高いモデル精度を維持しながら1-3%のデータにのみアクセスする必要があることがわかった。
論文 参考訳(メタデータ) (2024-09-16T17:59:52Z) - Value-Driven Mixed-Precision Quantization for Patch-Based Inference on
Microcontrollers [35.666772630923234]
QuantMCUは、値駆動型混合精度量子化を利用して冗長計算を減らす、パッチベースの新しい推論手法である。
我々は,QuantMCUが平均2.2倍の計算量を削減できることを示す。
論文 参考訳(メタデータ) (2024-01-24T04:21:41Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Fast and Private Inference of Deep Neural Networks by Co-designing Activation Functions [26.125340303868335]
現在のアプローチは大きな推論時間に悩まされている。
推論モデルと精度を競合させる新しいトレーニングアルゴリズムを提案する。
我々の評価では、最大2300万のパラメータを持つ大規模モデルにおいて、推論時間の3ドルから110倍のスピードアップが示されています。
論文 参考訳(メタデータ) (2023-06-14T14:38:25Z) - A Theory of I/O-Efficient Sparse Neural Network Inference [17.862408781750126]
機械学習モデルは、その精度を速い速度で向上させるため、エネルギーと計算資源の需要は増大する。
低レベルでは、これらのリソースの大部分は異なるメモリユニット間でのデータ移動によって消費されます。
我々は、スパースフィードフォワードニューラルネットワーク(FFNN)推論に必要なI/Oを厳密に理論的に分析する。
論文 参考訳(メタデータ) (2023-01-03T11:23:46Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation [6.303594714446706]
自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
論文 参考訳(メタデータ) (2022-09-01T17:18:19Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。