Fugu-MT 論文翻訳(概要): XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units

論文の概要: XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units

arxiv url: http://arxiv.org/abs/2502.06924v3
Date: Tue, 18 Feb 2025 21:32:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 13:29:36.037275
Title: XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units
Title（参考訳）: XAMBA:資源制約ニューラルプロセッシングユニット上での効率的な状態空間モデルの実現
Authors: Arghadip Das, Arnab Raha, Shamik Kundu, Soumendu Kumar Ghosh, Deepak Mathaikutty, Vijay Raghunathan,
Abstract要約: 状態空間モデル(SSM)は、シーケンシャルなデータタスクのためのトランスフォーマーの効率的な代替手段として登場した。 XAMBAは、商用オフザシェルフ(COTS)のSOTA(State-of-the-art)NPU上でSSMを有効にし、最適化する最初のフレームワークである。 XAMBAはCumBAとReduBAを使用して鍵ボトルネックを緩和し、シーケンシャルなCumSumとReduceeSumを行列ベースの計算に置き換える。
参考スコア（独自算出の注目度）: 0.6063137165121326
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-Space Models (SSMs) have emerged as efficient alternatives to transformers for sequential data tasks, offering linear or near-linear scalability with sequence length, making them ideal for long-sequence applications in NLP, vision, and edge AI, including real-time transcription, translation, and contextual search. These applications require lightweight, high-performance models for deployment on resource-constrained devices like laptops and PCs. Designing specialized accelerators for every emerging neural network is costly and impractical; instead, optimizing models for existing NPUs in AI PCs provides a scalable solution. To this end, we propose XAMBA, the first framework to enable and optimize SSMs on commercial off-the-shelf (COTS) state-of-the-art (SOTA) NPUs. XAMBA follows a three-step methodology: (1) enabling SSMs on NPUs, (2) optimizing performance to meet KPI requirements, and (3) trading accuracy for additional performance gains. After enabling SSMs on NPUs, XAMBA mitigates key bottlenecks using CumBA and ReduBA, replacing sequential CumSum and ReduceSum operations with matrix-based computations, significantly improving execution speed and memory efficiency. Additionally, ActiBA enhances performance by approximating expensive activation functions (e.g., Swish, Softplus) using piecewise linear mappings, reducing latency with minimal accuracy loss. Evaluations on an Intel Core Ultra Series 2 AI PC show that XAMBA achieves up to 2.6X speed-up over the baseline. Our implementation is available at https://github.com/arghadippurdue/XAMBA.
Abstract（参考訳）: ステートスペースモデル(SSM)は、シーケンシャルデータタスクのためのトランスフォーマーの効率的な代替手段として登場し、線形またはニア線形のスケーラビリティとシーケンス長を提供し、リアルタイムの書き起こし、翻訳、コンテキスト検索を含む、NLP、ビジョン、エッジAIの長いシーケンスアプリケーションに最適である。これらのアプリケーションは、ラップトップやPCのようなリソース制約のあるデバイスにデプロイするために、軽量で高性能なモデルを必要とする。 AI PCで既存のNPUにモデルを最適化することは、スケーラブルなソリューションを提供する。この目的のために,商用オフ・ザ・シェルフ(COTS)NPU(SOTA)上でSSMを有効にし,最適化する最初のフレームワークであるXAMBAを提案する。 XAMBAは、(1)NPU上でSSMを有効にし、(2)KPI要求を満たすようにパフォーマンスを最適化し、(3)さらなるパフォーマンス向上のために取引精度を向上する。 NPU上でSSMを有効にした後、XAMBAはCumBAとReduBAを使用して主要なボトルネックを緩和し、シーケンシャルなCumSumとReduceeSumを行列ベースの計算に置き換え、実行速度とメモリ効率を大幅に改善した。さらに、ActiBAは高価なアクティベーション関数(例えば、Swish、Softplus)を断片的な線形マッピングを使って近似することでパフォーマンスを高め、最小の精度の損失でレイテンシを低減する。 Intel Core Ultra Series 2 AI PCの評価によると、XAMBAはベースライン上で最大2.6倍のスピードアップを達成する。私たちの実装はhttps://github.com/arghadippurdue/XAMBA.comで公開されています。

関連論文リスト

Systolic Array-based Accelerator for Structured State-Space Models [1.137896937254823]
State-Space Models (SSM) は非常に長いデータシーケンスをリカレントやトランスフォーマーベースのモデルよりも効率的に処理する。本稿では,SSMの高速化を目的としたハードウェアアクセラレータEpochCoreを紹介する。 EpochCoreは、GPUと比較してLRAデータセットの平均2000倍のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-07-29T00:01:57Z)
Orthogonal Finetuning Made Scalable [87.49040247077389]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。これらの修正により、OFTv2はパフォーマンスを損なうことなく、最大10倍高速なトレーニングと3倍のGPUメモリ使用率を達成することができる。
論文参考訳（メタデータ） (2025-06-24T17:59:49Z)
POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration [0.0]
本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
論文参考訳（メタデータ） (2025-06-10T13:33:02Z)
Accelerating 3D Gaussian Splatting with Neural Sorting and Axis-Oriented Rasterization [14.87046071090259]
3D Gaussian Splatting (3DGS) は、最近、高品質で効率的なビュー合成において大きな注目を集めている。アルゴリズムの性能は素晴らしいが、リソースに制約のあるデバイスのリアルタイムレンダリングは、厳しい電力と地域予算のために依然として大きな課題だ。
論文参考訳（メタデータ） (2025-06-08T10:14:54Z)
Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。 GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文参考訳（メタデータ） (2024-12-24T02:27:44Z)
Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文参考訳（メタデータ） (2024-10-07T05:04:13Z)
Enhancing MOTION2NX for Efficient, Scalable and Secure Image Inference using Convolutional Neural Networks [4.407841002228536]
我々は,C++ベースのMOTION2NXフレームワーク上に実装されたABY2.0 SMPCプロトコルを用いて,半正直なセキュリティを備えたセキュア畳み込みニューラルネットワーク(CNN)推論アプリケーションを開発した。また、各CNN層における計算を複数のチャンクに分割する新しい分割アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-29T09:50:21Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文参考訳（メタデータ） (2023-10-30T02:04:20Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文参考訳（メタデータ） (2023-06-10T17:25:58Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文参考訳（メタデータ） (2021-04-07T00:16:39Z)
A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-13T23:52:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。