論文の概要: Exploration of Unary Arithmetic-Based Matrix Multiply Units for Low Precision DL Accelerators
- arxiv url: http://arxiv.org/abs/2602.00838v1
- Date: Sat, 31 Jan 2026 18:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.424527
- Title: Exploration of Unary Arithmetic-Based Matrix Multiply Units for Low Precision DL Accelerators
- Title(参考訳): 低精度DL加速器のための単項算術的行列乗算器の探索
- Authors: Prabhu Vellaisamy, Harideep Nair, Di Wu, Shawn Blanton, John Paul Shen,
- Abstract要約: 汎用行列乗算(GEMM)はディープラーニング(DL)の基本演算である
最近の研究は、従来のバイナリGEMMハードウェアに代わる新しい一元的GEMM設計を提案している。
我々は、将来のエッジAIアクセラレーターにおいて、一元的GEMMがエネルギー効率の高い計算に効果的に利用できるかを実証する。
- 参考スコア(独自算出の注目度): 3.1197830253827026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General matrix multiplication (GEMM) is a fundamental operation in deep learning (DL). With DL moving increasingly toward low precision, recent works have proposed novel unary GEMM designs as an alternative to conventional binary GEMM hardware. A rigorous evaluation of recent unary and binary GEMM designs is needed to assess the potential of unary hardware for future DL compute. This paper focuses on unary GEMM designs for integer-based DL inference and performs a detailed evaluation of three latest unary design proposals, namely, uGEMM, tuGEMM and tubGEMM, by comparing them to a conventional binary GEMM. Rigorous post-synthesis evaluations beyond prior works are performed across varying bit-widths and matrix sizes to assess the designs' tradeoffs and determine optimal sweetspots. Further, we perform weight sparsity analysis across eight pretrained convolutional neural networks (CNNs) and the LLaMA2 large language model (LLM). In this work, we demonstrate how unary GEMM can be effectively used for energy-efficient compute in future edge AI accelerators.
- Abstract(参考訳): 汎用行列乗算(GEMM)はディープラーニング(DL)の基本演算である。
近年,DLの低精度化が進み,従来のバイナリGEMMハードウェアに代わる一元的GEMM設計が提案されている。
将来のDL計算における一元的ハードウェアの可能性を評価するためには,最近の一元的および二元的GEMM設計の厳密な評価が必要である。
本稿では、整数型DL推論のための単項GEMM設計に焦点を当て、従来の二項GEMMと比較することにより、uGEMM、tuGEMM、tubGEMMの3つの最新の一項設計提案を詳細に評価する。
事前の作業を超える厳密なポスト合成評価は、設計のトレードオフを評価し、最適なスイートスポットを決定するために、様々なビット幅とマトリックスサイズで実施される。
さらに,8つの事前訓練された畳み込みニューラルネットワーク(CNN)とLLaMA2大言語モデル(LLM)の重量空間解析を行った。
本研究では,将来のエッジAIアクセラレータにおいて,一元的GEMMをエネルギー効率の高い計算に効果的に利用する方法を実証する。
関連論文リスト
- Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - Does Generative Retrieval Overcome the Limitations of Dense Retrieval? [117.49076770892583]
生成的検索(GR)はニューラル情報検索の新しいパラダイムとして登場した。
本研究では,GRが高密度検索(DR)から学習目的と表現能力の両方において根本的に分岐するかを検討する。
論文 参考訳(メタデータ) (2025-09-26T09:38:01Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - Understanding the Performance Horizon of the Latest ML Workloads with NonGEMM Workloads [1.4107658666233678]
我々はHugging FaceとTorchvisionで広く採用されている17のMLモデルのパフォーマンス解析を行った。
非GEMMパフォーマンスボトルネックは平均して11.3%から73.6%である。
我々は、モデルとデプロイメントソフトウェアごとに、GEMM以外の最も支配的な演算子をデミストする。
論文 参考訳(メタデータ) (2024-04-17T22:44:22Z) - Lighter, Better, Faster Multi-Source Domain Adaptation with Gaussian Mixture Models and Optimal Transport [5.492296610282042]
我々は、異種、ラベル付きソース確率測度を異なるラベル付きターゲット測度に適応させるトランスファー学習におけるタスクであるマルチソースドメイン適応(MSDA)に取り組む。
最適輸送(OT)とガウス混合モデル(GMM)に基づくMSDAのための新しいフレームワークを提案する。
画像分類と故障診断の4つのベンチマークで提案手法を実証的に評価し,より高速かつ少ないパラメータを伴いながら,先行技術よりも改善したことを示す。
論文 参考訳(メタデータ) (2024-04-16T03:31:28Z) - Large Multi-Modal Models (LMMs) as Universal Foundation Models for
AI-Native Wireless Systems [57.41621687431203]
大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。
本稿では,人工知能(AI)ネイティブネットワークの展開に適したユニバーサルファンデーションモデルを設計するための包括的ビジョンを提案する。
論文 参考訳(メタデータ) (2024-01-30T00:21:41Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。