論文の概要: tuGEMM: Area-Power-Efficient Temporal Unary GEMM Architecture for Low-Precision Edge AI
- arxiv url: http://arxiv.org/abs/2412.17966v1
- Date: Mon, 23 Dec 2024 20:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:53.371993
- Title: tuGEMM: Area-Power-Efficient Temporal Unary GEMM Architecture for Low-Precision Edge AI
- Title(参考訳): tuGEMM: 低精度エッジAIのためのエリアパワー効率の一時的統一GEMMアーキテクチャ
- Authors: Harideep Nair, Prabhu Vellaisamy, Albert Chen, Joseph Finn, Anna Li, Manav Trivedi, John Paul Shen,
- Abstract要約: General matrix multiplication (GEMM) は、様々なアプリケーションにおけるデータ処理のためのユビキタスコンピューティングカーネル/アルゴリズムである。
エッジコンピューティングへの最近のシフトは、一元計算に基づくGEMMアーキテクチャに影響を与えた。
本稿では,時間的符号化に基づく新しいGEMMアーキテクチャであるtuGEMMを提案し,正確な計算を行う。
- 参考スコア(独自算出の注目度): 2.655264633057144
- License:
- Abstract: General matrix multiplication (GEMM) is a ubiquitous computing kernel/algorithm for data processing in diverse applications, including artificial intelligence (AI) and deep learning (DL). Recent shift towards edge computing has inspired GEMM architectures based on unary computing, which are predominantly stochastic and rate-coded systems. This paper proposes a novel GEMM architecture based on temporal-coding, called tuGEMM, that performs exact computation. We introduce two variants of tuGEMM, serial and parallel, with distinct area/power-latency trade-offs. Post-synthesis Power-Performance-Area (PPA) in 45 nm CMOS are reported for 2-bit, 4-bit, and 8-bit computations. The designs illustrate significant advantages in area-power efficiency over state-of-the-art stochastic unary systems especially at low precisions, e.g. incurring just 0.03 mm^2 and 9 mW for 4 bits, and 0.01 mm^2 and 4 mW for 2 bits. This makes tuGEMM ideal for power constrained mobile and edge devices performing always-on real-time sensory processing.
- Abstract(参考訳): General matrix multiplication (GEMM) は、人工知能 (AI) やディープラーニング (DL) を含む様々なアプリケーションにおけるデータ処理のためのユビキタスコンピューティングカーネル/アルゴリズムである。
エッジコンピューティングへの最近のシフトはGEMMアーキテクチャにインスピレーションを与えた。
本稿では,時間的符号化に基づく新しいGEMMアーキテクチャであるtuGEMMを提案し,正確な計算を行う。
我々は、異なる領域/電力/遅延トレードオフを持つTuGEMM、シリアルとパラレルの2つの変種を紹介する。
45nmCMOSにおける後続のPPA(Power-Performance-Area)は, 2ビット, 4ビット, 8ビットの計算に対して報告される。
この設計は、特に低精度で0.03mm^2と9mWで4ビットで0.01mm^2と4mWで2ビットで0.01mm^2と4mWという、最先端の確率的一元系に比べて、面積電力効率が著しく優れていることを示している。
これにより、TurGEMMは、常時リアルタイムのセンサ処理を実行する、電力制約のあるモバイルおよびエッジデバイスに理想的である。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - MIMONets: Multiple-Input-Multiple-Output Neural Networks Exploiting
Computation in Superposition [0.0]
本稿では,複数の入力を同時に処理できるマルチインプット・マルチプル・アウトプットニューラルネットワーク(MIMONets)を提案する。
MIMONetsは非線形ニューラルトランスフォーメーションを適用してデータ構造を均等に処理し、重畳された入力項目の数にほぼ比例するスピードアップをもたらす。
論文 参考訳(メタデータ) (2023-12-05T15:25:45Z) - Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。
この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。
これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文 参考訳(メタデータ) (2023-10-08T16:26:18Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - What Can Simple Arithmetic Operations Do for Temporal Modeling? [100.39047523315662]
テンポラルモデリングはビデオコンテンツを理解する上で重要な役割を担っている。
従来の研究は、強力なデバイスの開発により、時系列を通して複雑な時間関係を構築していた。
本研究では,時間的モデリングのための4つの簡単な算術演算の可能性について検討する。
論文 参考訳(メタデータ) (2023-07-18T00:48:56Z) - Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。
本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。
具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-28T16:53:41Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - Memristive Stochastic Computing for Deep Learning Parameter Optimization [1.6344851071810071]
コンピューティング(sc)は、ビットストリームとデジタルロジックを用いた様々な演算処理の低コストかつ低消費電力化を可能にするコンピューティングパラダイムである。
40nmの補完金属酸化物半導体(CMOS)プロセスを使用することで、拡張可能なアーキテクチャは1.55mm$2$を占め、文字認識タスクのために訓練されている間、畳み込みニューラルネットワーク(CNN)のパラメータを最適化する際に約167$mu$Wを消費します。
論文 参考訳(メタデータ) (2021-03-11T07:10:32Z) - SIMDive: Approximate SIMD Soft Multiplier-Divider for FPGAs with Tunable
Accuracy [3.4154033825543055]
本稿では,新しい乗算器とチューナブルな分割器に基づくSIMDアーキテクチャを初めて提示する。
提案したハイブリッドアーキテクチャはMitchellのアルゴリズムを実装し、8ビットから32ビットの精度変数をサポートする。
論文 参考訳(メタデータ) (2020-11-02T17:40:44Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。