論文の概要: MARCA: Mamba Accelerator with ReConfigurable Architecture
- arxiv url: http://arxiv.org/abs/2409.11440v1
- Date: Mon, 16 Sep 2024 15:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 22:12:27.437993
- Title: MARCA: Mamba Accelerator with ReConfigurable Architecture
- Title(参考訳): MARCA: 再構成可能なアーキテクチャを備えたMamba Accelerator
- Authors: Jinhao Li, Shan Huang, Jiaming Xu, Jun Liu, Li Ding, Ningyi Xu, Guohao Dai,
- Abstract要約: 再構成可能なアーキテクチャであるMARCAを用いたMambaアクセラレータを提案する。
線形演算と要素演算の両方のための代替PEアレイアーキテクチャの削減。
再構成可能なPEに基づく再利用可能な非線形関数ユニット。
運用内および運用間バッファ管理戦略。
- 参考スコア(独自算出の注目度): 16.48279181435065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Mamba accelerator with reconfigurable architecture, MARCA.We propose three novel approaches in this paper. (1) Reduction alternative PE array architecture for both linear and element-wise operations. For linear operations, the reduction tree connected to PE arrays is enabled and executes the reduction operation. For element-wise operations, the reduction tree is disabled and the output bypasses. (2) Reusable nonlinear function unit based on the reconfigurable PE. We decompose the exponential function into element-wise operations and a shift operation by a fast biased exponential algorithm, and the activation function (SiLU) into a range detection and element-wise operations by a piecewise approximation algorithm. Thus, the reconfigurable PEs are reused to execute nonlinear functions with negligible accuracy loss.(3) Intra-operation and inter-operation buffer management strategy. We propose intra-operation buffer management strategy to maximize input data sharing for linear operations within operations, and inter-operation strategy for element-wise operations between operations. We conduct extensive experiments on Mamba model families with different sizes.MARCA achieves up to 463.22$\times$/11.66$\times$ speedup and up to 9761.42$\times$/242.52$\times$ energy efficiency compared to Intel Xeon 8358P CPU and NVIDIA Tesla A100 GPU implementations, respectively.
- Abstract(参考訳): 本稿では,再構成可能なアーキテクチャを持つMambaアクセラレータ MARCAを提案する。
1) 線形および素子単位の操作のための代替PEアレイアーキテクチャの削減。
線形演算では、PEアレイに接続されたリダクションツリーを有効にし、リダクション操作を実行する。
要素演算では、リダクションツリーが無効になり、出力がバイパスされる。
2)再構成可能なPEに基づく再利用可能な非線形関数ユニット。
本研究では,指数関数を高速偏差指数関数による要素演算とシフト演算に分解し,アクティベーション関数(SiLU)をレンジ検出および要素演算に分割近似アルゴリズムで分割する。
これにより、再構成可能なPEを再利用して、無視可能な精度損失で非線形関数を実行する。
(3)操作内および操作間バッファ管理戦略
本稿では,操作中の線形演算に対する入力データ共有を最大化する操作内バッファ管理戦略と,操作間の要素操作に対する操作間通信戦略を提案する。
MARCAは最大463.22$\times$/11.66$\times$スピードアップ、最大9761.42$\times$/242.52$\times$エネルギ効率をIntel Xeon 8358P CPUとNVIDIA Tesla A100 GPU実装と比較する。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - A High-Speed Hardware Algorithm for Modulus Operation and its Application in Prime Number Calculation [0.0]
提案アルゴリズムは加算演算,減算演算,論理演算,ビットシフト演算のみを用いる。
暗号化アプリケーションにおけるスケーラビリティの課題に対処する。
このアルゴリズムを50,000までの素数計算に適用すると、実用性と性能上の利点が示される。
論文 参考訳(メタデータ) (2024-07-17T13:24:52Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。
MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。
乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-29T20:18:52Z) - Low-Latency Online Multiplier with Reduced Activities and Minimized
Interconnect for Inner Product Arrays [0.8078491757252693]
本稿では,オンライン算術や左から右への算術に基づく低レイテンシ乗算器を提案する。
オンライン算術は、データ依存に関係なく連続した操作を重複させることができる。
オンラインアルゴリズムのシリアルな性質と、アクティブスライスの段階的な増減は、相互接続と信号のアクティビティを最小化する。
論文 参考訳(メタデータ) (2023-04-06T01:22:27Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal
Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。
モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。
本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文 参考訳(メタデータ) (2020-04-23T02:26:40Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。