論文の概要: SA-Kura: An Energy-Efficient Systolic Array Accelerator for Locally-Coupled Kuramoto Drift in Diffusion Sampling
- arxiv url: http://arxiv.org/abs/2605.24016v1
- Date: Wed, 20 May 2026 04:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.535909
- Title: SA-Kura: An Energy-Efficient Systolic Array Accelerator for Locally-Coupled Kuramoto Drift in Diffusion Sampling
- Title(参考訳): SA-Kura:拡散サンプリングにおける局所結合型倉本ドリフトのためのエネルギー効率の良いシストリックアレイ加速器
- Authors: Jeongmin Jin, Kyeongwon Lee, Mundo Jeong, Jongin Choi, Woojoo Lee,
- Abstract要約: 倉本配向拡散はこの自明なドリフトを局所結合相相互作用に置き換える。
そこで我々は,SA-Kuraを,局所的に結合した倉本ドリフトに特化した初のデジタルサイストリックアレイ加速器として紹介する。
- 参考スコア(独自算出の注目度): 2.3651168422805027
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion inference remains costly for edge deployment, yet existing accelerators focus almost exclusively on score networks because standard drift is merely a trivial linear scaling. Kuramoto orientation diffusion replaces this trivial drift with locally coupled phase interactions, improving sampling efficiency but introducing a new hardware bottleneck: a center-dependent nonlinear 5 x 5 stencil evaluated at every reverse step. This kernel maps poorly to conventional CNN accelerators and matrix-oriented engines. We present SA-Kura, to our knowledge the first digital systolic-array accelerator dedicated to locally coupled Kuramoto drift. By reformulating pair-wise sinusoidal coupling into neighbor accumulation independent of the center phase followed by a single center-dependent multiply-subtract combination, SA-Kura eliminates in-PE transcendental units and enables regular systolic execution with register-level reuse. SA-Kura was implemented in synthesizable RTL, integrated into a lightweight RISC-V-based SoC, prototyped on FPGA, and evaluated through 45 nm CMOS synthesis and power analysis. For the drift kernel only, compared with software execution of the same kernel on the processor core in the same SoC platform, SA-Kura reduces latency and energy by 193x and 69.4x, respectively. Compared with a standalone Jetson Orin Nano CUDA implementation of the same kernel, it is 6.57x faster and achieves approximately 46.0x lower energy per pixel.
- Abstract(参考訳): 拡散推論は、エッジデプロイメントにはコストがかかるが、既存のアクセラレータは、標準的なドリフトは単なる線形スケーリングであるため、スコアネットワークのみに重点を置いている。
倉本配向拡散は、この自明なドリフトを局所的に結合した位相相互作用に置き換え、サンプリング効率を向上させるが、新しいハードウェアボトルネック、すなわち、各逆ステップで評価される中心依存非線形5x5ステンシルを導入する。
このカーネルは従来のCNNアクセラレータや行列指向エンジンによく対応している。
そこで我々は,SA-Kuraを,局所的に結合した倉本ドリフトに特化した初のデジタルサイストリックアレイ加速器として紹介する。
一対の正弦波結合を中心相に依存しない隣り合う累積に再構成し、単一中心依存性の乗算サブトラクションの組み合わせにより、SA-Kuraは-PEトランセンデンタル単位を排除し、レジスタレベルの再利用で定期的なシストリック実行を可能にする。
SA-Kuraは、合成可能なRTLで実装され、軽量RISC-VベースのSoCに統合され、FPGAでプロトタイプ化され、45nmのCMOS合成と電力分析によって評価された。
ドリフトカーネルのみの場合、同じSoCプラットフォームのプロセッサコア上で同じカーネルを実行する場合と比較して、SA-Kuraはレイテンシとエネルギーをそれぞれ193xと69.4xに削減する。
同じカーネルのスタンドアロンのJetson Orin Nano CUDA実装と比較すると、6.57倍高速で、1ピクセルあたり46.0倍低エネルギーを実現している。
関連論文リスト
- OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - Analysis of Nystrom method with sequential ridge leverage scores [69.32538992633842]
大規模なカーネルリッジ回帰(KRR)は、大規模なカーネルマトリックスK_tを格納する必要があるため制限される。
近年の研究では、尾根レバレッジスコア(RLS)に比例するサンプリング分布が、近似に強い再構成保証をもたらすことが示されている。
本稿では,LS推定値を漸進的に計算するINK-ESTIMATEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-04-22T00:49:25Z) - AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - HIT-ROCKET: Hadamard-vector Inner-product Transformer for ROCKET [0.039089069256361735]
時系列分類は、コミュニケーション、情報対策、金融、医療における幅広い応用価値を持っている。
最先端のSOTA(State-of-the-art)手法は、長いパラメータチューニングとトレーニングサイクルを組み合わせた高い計算複雑性を示す。
本研究では,アダマール行列の列ベクトルあるいは行ベクトルを,様々な大きさの長大な畳み込みカーネルとして利用した,アダマール畳み込み変換に基づく特徴抽出手法を提案する。
論文 参考訳(メタデータ) (2025-11-03T13:39:40Z) - PointODE: Lightweight Point Cloud Learning with Neural Ordinary Differential Equations on Edge [0.8403582577557918]
本稿では,残差接続を持つブロックの連続的スタックに基づいて,ポイントクラウド特徴抽出のためのパラメータ効率のよいアーキテクチャを提案する。
PointODEは、合成データセットと実世界のデータセットの両方の最先端モデルと競合する精度を示す。
論文 参考訳(メタデータ) (2025-05-31T07:34:54Z) - StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators [5.245727758971415]
ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーウェアベースのインメモリコンピューティング(IMC)が登場した。
論文 参考訳(メタデータ) (2024-07-17T07:56:43Z) - D4FT: A Deep Learning Approach to Kohn-Sham Density Functional Theory [79.50644650795012]
コーンシャム密度汎関数論(KS-DFT)を解くための深層学習手法を提案する。
このような手法はSCF法と同じ表現性を持つが,計算複雑性は低下する。
さらに,本手法により,より複雑なニューラルベース波動関数の探索が可能となった。
論文 参考訳(メタデータ) (2023-03-01T10:38:10Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Flow-based Kernel Prior with Application to Blind Super-Resolution [143.21527713002354]
カーネル推定は一般にブラインド画像超解像(SR)の鍵となる問題の一つである
本稿では,カーネルモデリングのための正規化フローベースカーネルプリレント(fkp)を提案する。
合成および実世界の画像の実験により、提案したFKPがカーネル推定精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-03-29T22:37:06Z) - PENNI: Pruned Kernel Sharing for Efficient CNN Inference [41.050335599000036]
最先端(SOTA)CNNは、様々なタスクにおいて優れたパフォーマンスを達成する。
その高い計算要求と膨大な数のパラメータにより、リソース制約のあるデバイスにこれらのSOTA CNNをデプロイすることは困難である。
本稿では,CNNモデル圧縮フレームワークであるPENNIを提案する。
論文 参考訳(メタデータ) (2020-05-14T16:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。