Fugu-MT 論文翻訳(概要): MARCA: Mamba Accelerator with ReConfigurable Architecture

論文の概要: MARCA: Mamba Accelerator with ReConfigurable Architecture

arxiv url: http://arxiv.org/abs/2409.11440v1
Date: Mon, 16 Sep 2024 15:18:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 22:12:27.437993
Title: MARCA: Mamba Accelerator with ReConfigurable Architecture
Title（参考訳）: MARCA: 再構成可能なアーキテクチャを備えたMamba Accelerator
Authors: Jinhao Li, Shan Huang, Jiaming Xu, Jun Liu, Li Ding, Ningyi Xu, Guohao Dai,
Abstract要約: 再構成可能なアーキテクチャであるMARCAを用いたMambaアクセラレータを提案する。線形演算と要素演算の両方のための代替PEアレイアーキテクチャの削減。再構成可能なPEに基づく再利用可能な非線形関数ユニット。運用内および運用間バッファ管理戦略。
参考スコア（独自算出の注目度）: 16.48279181435065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a Mamba accelerator with reconfigurable architecture, MARCA.We propose three novel approaches in this paper. (1) Reduction alternative PE array architecture for both linear and element-wise operations. For linear operations, the reduction tree connected to PE arrays is enabled and executes the reduction operation. For element-wise operations, the reduction tree is disabled and the output bypasses. (2) Reusable nonlinear function unit based on the reconfigurable PE. We decompose the exponential function into element-wise operations and a shift operation by a fast biased exponential algorithm, and the activation function (SiLU) into a range detection and element-wise operations by a piecewise approximation algorithm. Thus, the reconfigurable PEs are reused to execute nonlinear functions with negligible accuracy loss.(3) Intra-operation and inter-operation buffer management strategy. We propose intra-operation buffer management strategy to maximize input data sharing for linear operations within operations, and inter-operation strategy for element-wise operations between operations. We conduct extensive experiments on Mamba model families with different sizes.MARCA achieves up to 463.22$\times$/11.66$\times$ speedup and up to 9761.42$\times$/242.52$\times$ energy efficiency compared to Intel Xeon 8358P CPU and NVIDIA Tesla A100 GPU implementations, respectively.
Abstract（参考訳）: 本稿では,再構成可能なアーキテクチャを持つMambaアクセラレータ MARCAを提案する。 1) 線形および素子単位の操作のための代替PEアレイアーキテクチャの削減。線形演算では、PEアレイに接続されたリダクションツリーを有効にし、リダクション操作を実行する。要素演算では、リダクションツリーが無効になり、出力がバイパスされる。 2)再構成可能なPEに基づく再利用可能な非線形関数ユニット。本研究では,指数関数を高速偏差指数関数による要素演算とシフト演算に分解し,アクティベーション関数(SiLU)をレンジ検出および要素演算に分割近似アルゴリズムで分割する。これにより、再構成可能なPEを再利用して、無視可能な精度損失で非線形関数を実行する。 (3)操作内および操作間バッファ管理戦略本稿では,操作中の線形演算に対する入力データ共有を最大化する操作内バッファ管理戦略と,操作間の要素操作に対する操作間通信戦略を提案する。 MARCAは最大463.22$\times$/11.66$\times$スピードアップ、最大9761.42$\times$/242.52$\times$エネルギ効率をIntel Xeon 8358P CPUとNVIDIA Tesla A100 GPU実装と比較する。

関連論文リスト

Scaling Probabilistic Circuits via Monarch Matrices [109.65822339230853]
確率回路(PC)は確率分布の抽出可能な表現である。そこで本研究では,PCの和ブロックに対する新しいスパースパラメータと構造化パラメータ化を提案する。
論文参考訳（メタデータ） (2025-06-14T07:39:15Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
CORDIC Is All You Need [0.18184027690235535]
線形MAC計算と非線形反復活性化関数のためのCORDICブロックを用いたパイプラインアーキテクチャを提案する。このアプローチでは、Reconfigurable Processing Engine(RPE)ベースのsystolic配列に重点を置いている。 FPGAの実装により、リソースの節約に2.5ドル、以前の作業に比較して3ドルまで削減できる。
論文参考訳（メタデータ） (2025-03-04T12:23:27Z)
Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。 PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文参考訳（メタデータ） (2025-02-12T18:54:10Z)
CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文参考訳（メタデータ） (2024-11-25T07:56:13Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
A High-Speed Hardware Algorithm for Modulus Operation and its Application in Prime Number Calculation [0.0]
提案アルゴリズムは加算演算,減算演算,論理演算,ビットシフト演算のみを用いる。暗号化アプリケーションにおけるスケーラビリティの課題に対処する。このアルゴリズムを50,000までの素数計算に適用すると、実用性と性能上の利点が示される。
論文参考訳（メタデータ） (2024-07-17T13:24:52Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。 MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文参考訳（メタデータ） (2023-09-29T20:18:52Z)
Low-Latency Online Multiplier with Reduced Activities and Minimized Interconnect for Inner Product Arrays [0.8078491757252693]
本稿では,オンライン算術や左から右への算術に基づく低レイテンシ乗算器を提案する。オンライン算術は、データ依存に関係なく連続した操作を重複させることができる。オンラインアルゴリズムのシリアルな性質と、アクティブスライスの段階的な増減は、相互接続と信号のアクティビティを最小化する。
論文参考訳（メタデータ） (2023-04-06T01:22:27Z)
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。 Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文参考訳（メタデータ） (2022-12-08T18:59:57Z)
Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文参考訳（メタデータ） (2022-01-30T16:14:49Z)
PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文参考訳（メタデータ） (2020-04-23T02:26:40Z)
ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。 DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。 14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文参考訳（メタデータ） (2020-03-25T07:54:42Z)
Accelerating Feedforward Computation via Parallel Nonlinear Equation Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文参考訳（メタデータ） (2020-02-10T10:11:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。