Fugu-MT 論文翻訳(概要): tuGEMM: Area-Power-Efficient Temporal Unary GEMM Architecture for Low-Precision Edge AI

論文の概要: tuGEMM: Area-Power-Efficient Temporal Unary GEMM Architecture for Low-Precision Edge AI

arxiv url: http://arxiv.org/abs/2412.17966v1
Date: Mon, 23 Dec 2024 20:30:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.56151
Title: tuGEMM: Area-Power-Efficient Temporal Unary GEMM Architecture for Low-Precision Edge AI
Title（参考訳）: tuGEMM: 低精度エッジAIのためのエリアパワー効率の一時的統一GEMMアーキテクチャ
Authors: Harideep Nair, Prabhu Vellaisamy, Albert Chen, Joseph Finn, Anna Li, Manav Trivedi, John Paul Shen,
Abstract要約: General matrix multiplication (GEMM) は、様々なアプリケーションにおけるデータ処理のためのユビキタスコンピューティングカーネル/アルゴリズムである。エッジコンピューティングへの最近のシフトは、一元計算に基づくGEMMアーキテクチャに影響を与えた。本稿では,時間的符号化に基づく新しいGEMMアーキテクチャであるtuGEMMを提案し,正確な計算を行う。
参考スコア（独自算出の注目度）: 2.655264633057144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: General matrix multiplication (GEMM) is a ubiquitous computing kernel/algorithm for data processing in diverse applications, including artificial intelligence (AI) and deep learning (DL). Recent shift towards edge computing has inspired GEMM architectures based on unary computing, which are predominantly stochastic and rate-coded systems. This paper proposes a novel GEMM architecture based on temporal-coding, called tuGEMM, that performs exact computation. We introduce two variants of tuGEMM, serial and parallel, with distinct area/power-latency trade-offs. Post-synthesis Power-Performance-Area (PPA) in 45 nm CMOS are reported for 2-bit, 4-bit, and 8-bit computations. The designs illustrate significant advantages in area-power efficiency over state-of-the-art stochastic unary systems especially at low precisions, e.g. incurring just 0.03 mm^2 and 9 mW for 4 bits, and 0.01 mm^2 and 4 mW for 2 bits. This makes tuGEMM ideal for power constrained mobile and edge devices performing always-on real-time sensory processing.
Abstract（参考訳）: General matrix multiplication (GEMM) は、人工知能 (AI) やディープラーニング (DL) を含む様々なアプリケーションにおけるデータ処理のためのユビキタスコンピューティングカーネル/アルゴリズムである。エッジコンピューティングへの最近のシフトはGEMMアーキテクチャにインスピレーションを与えた。本稿では,時間的符号化に基づく新しいGEMMアーキテクチャであるtuGEMMを提案し,正確な計算を行う。我々は、異なる領域/電力/遅延トレードオフを持つTuGEMM、シリアルとパラレルの2つの変種を紹介する。 45nmCMOSにおける後続のPPA(Power-Performance-Area)は, 2ビット, 4ビット, 8ビットの計算に対して報告される。この設計は、特に低精度で0.03mm^2と9mWで4ビットで0.01mm^2と4mWで2ビットで0.01mm^2と4mWという、最先端の確率的一元系に比べて、面積電力効率が著しく優れていることを示している。これにより、TurGEMMは、常時リアルタイムのセンサ処理を実行する、電力制約のあるモバイルおよびエッジデバイスに理想的である。

関連論文リスト

DNN-Based Precoding in RIS-Aided mmWave MIMO Systems With Practical Phase Shift [56.04579258267126]
本稿では、直接通信路を妨害したミリ波マルチインプット多重出力(MIMO)システムのスループットを最大化する。リコンフィギュアブルインテリジェントサーフェス(RIS)は、視線(LoS)とマルチパス効果に関連するmmWave特性を考慮して伝送性を高めるために使用される。ディープニューラルネットワーク(DNN)は、より高速なコードワード選択を容易にするために開発された。
論文参考訳（メタデータ） (2025-07-03T17:35:06Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Exploring the Performance Improvement of Tensor Processing Engines through Transformation in the Bit-weight Dimension of MACs [8.17483100683993]
我々は,乗算器(MAC)のビット重み次元に着目した,行列乗算に関する新しいハードウェア視点を導入する。タイミング,面積,消費電力を改善する4つの最適化手法を提案する。本手法は, 1.27x, 1.28x, 1.56x, 1.44xの面積効率向上と1.04x, 1.56x, 1.49x, 1.20xのエネルギー効率向上を実現する。
論文参考訳（メタデータ） (2025-03-08T21:21:23Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
MIMONets: Multiple-Input-Multiple-Output Neural Networks Exploiting Computation in Superposition [0.0]
本稿では,複数の入力を同時に処理できるマルチインプット・マルチプル・アウトプットニューラルネットワーク(MIMONets)を提案する。 MIMONetsは非線形ニューラルトランスフォーメーションを適用してデータ構造を均等に処理し、重畳された入力項目の数にほぼ比例するスピードアップをもたらす。
論文参考訳（メタデータ） (2023-12-05T15:25:45Z)
Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文参考訳（メタデータ） (2023-10-08T16:26:18Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
What Can Simple Arithmetic Operations Do for Temporal Modeling? [100.39047523315662]
テンポラルモデリングはビデオコンテンツを理解する上で重要な役割を担っている。従来の研究は、強力なデバイスの開発により、時系列を通して複雑な時間関係を構築していた。本研究では,時間的モデリングのための4つの簡単な算術演算の可能性について検討する。
論文参考訳（メタデータ） (2023-07-18T00:48:56Z)
Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文参考訳（メタデータ） (2023-02-28T16:53:41Z)
Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文参考訳（メタデータ） (2022-01-30T16:14:49Z)
Memristive Stochastic Computing for Deep Learning Parameter Optimization [1.6344851071810071]
コンピューティング(sc)は、ビットストリームとデジタルロジックを用いた様々な演算処理の低コストかつ低消費電力化を可能にするコンピューティングパラダイムである。 40nmの補完金属酸化物半導体(CMOS)プロセスを使用することで、拡張可能なアーキテクチャは1.55mm$2$を占め、文字認識タスクのために訓練されている間、畳み込みニューラルネットワーク(CNN)のパラメータを最適化する際に約167$mu$Wを消費します。
論文参考訳（メタデータ） (2021-03-11T07:10:32Z)
SIMDive: Approximate SIMD Soft Multiplier-Divider for FPGAs with Tunable Accuracy [3.4154033825543055]
本稿では,新しい乗算器とチューナブルな分割器に基づくSIMDアーキテクチャを初めて提示する。提案したハイブリッドアーキテクチャはMitchellのアルゴリズムを実装し、8ビットから32ビットの精度変数をサポートする。
論文参考訳（メタデータ） (2020-11-02T17:40:44Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。