論文の概要: A Compute and Communication Runtime Model for Loihi 2
- arxiv url: http://arxiv.org/abs/2601.10035v1
- Date: Thu, 15 Jan 2026 03:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.976997
- Title: A Compute and Communication Runtime Model for Loihi 2
- Title(参考訳): Loihi 2の計算・通信実行モデル
- Authors: Jonathan Timcheck, Alessandro Pierro, Sumit Bam Shrestha,
- Abstract要約: 我々は、IntelのLoihi 2ニューロモルフィックチップに対して、最初のマックスアフィン低バウンドランタイムモデルを導入する。
低バウンドモデルであるにもかかわらず、モデルの推定実行時間と測定実行時間との密接な対応を観察する。
我々のモデルは、Loihi 2の高速アルゴリズムとカーネルの設計を促進するのに役立ちます。
- 参考スコア(独自算出の注目度): 43.830725925222424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neuromorphic computers hold the potential to vastly improve the speed and efficiency of a wide range of computational kernels with their asynchronous, compute-memory co-located, spatially distributed, and scalable nature. However, performance models that are simple yet sufficiently expressive to predict runtime on actual neuromorphic hardware are lacking, posing a challenge for researchers and developers who strive to design fast algorithms and kernels. As breaking the memory bandwidth wall of conventional von-Neumann architectures is a primary neuromorphic advantage, modeling communication time is especially important. At the same time, modeling communication time is difficult, as complex congestion patterns arise in a heavily-loaded Network-on-Chip. In this work, we introduce the first max-affine lower-bound runtime model -- a multi-dimensional roofline model -- for Intel's Loihi 2 neuromorphic chip that quantitatively accounts for both compute and communication based on a suite of microbenchmarks. Despite being a lower-bound model, we observe a tight correspondence (Pearson correlation coefficient greater than or equal to 0.97) between our model's estimated runtime and the measured runtime on Loihi 2 for a neural network linear layer, i.e., matrix-vector multiplication, and for an example application, a Quadratic Unconstrained Binary Optimization solver. Furthermore, we derive analytical expressions for communication-bottlenecked runtime to study scalability of the linear layer, revealing an area-runtime tradeoff for different spatial workload configurations with linear to superliner runtime scaling in layer size with a variety of constant factors. Our max-affine runtime model helps empower the design of high-speed algorithms and kernels for Loihi 2.
- Abstract(参考訳): ニューロモルフィックコンピュータは、非同期で計算メモリを共配置し、空間的に分散し、スケーラブルな性質で、幅広い計算カーネルの速度と効率を大幅に改善する可能性を秘めている。
しかし、実際のニューロモルフィックハードウェア上でのランタイムを予測するのにシンプルだが十分に表現可能なパフォーマンスモデルは欠落しており、高速アルゴリズムやカーネルを設計しようとする研究者や開発者にとっての課題となっている。
従来のvon-Neumannアーキテクチャのメモリ帯域幅の壁を壊すことが主要なニューロモルフィックな利点であるので、通信時間をモデル化することが特に重要である。
同時に、複雑な混雑パターンが重負荷のNetwork-on-Chipで発生するため、通信時間のモデル化は困難である。
本研究では,IntelのLoihi 2ニューロモルフィックチップに対して,マイクロベンチマークのスイートに基づいて計算と通信の両方を定量的に行う,最初の最大アフィン低バウンドランタイムモデル(多次元ルーフラインモデル)を紹介する。
低バウンドモデルであるにもかかわらず、ニューラルネットワーク線形層、すなわち行列ベクトル乗算のためのLoihi 2上のモデルの推定実行時間と測定実行時間との間の密な対応(ピアソン相関係数が0.97以上)を観測し、例えば、擬似非制約二項最適化解法について述べる。
さらに,通信ブートネック型ランタイムの解析式を導出して線形層の拡張性について検討し,線形・スーパーライナー・ランタイム・スケールの異なる空間的ワークロード構成に対する領域実行時のトレードオフを明らかにする。
我々の最大アフィンランタイムモデルは、Loihi 2の高速アルゴリズムとカーネルの設計を促進するのに役立ちます。
関連論文リスト
- SpikySpace: A Spiking State Space Model for Energy-Efficient Time Series Forecasting [9.976522013586244]
SpikySpaceは、注意ブロックの二次コストを選択的スキャンによって線形時間に削減する、スパイク状態空間モデルである。
指数関数や除算などの複雑な演算は、ニューロモルフィックチップ上でコストがかかるため、SiLUとSoftplusの簡易近似を導入する。
一致する環境では、SpkySpaceは2つの最先端トランスフォーマーベースのアプローチと比較して、推定エネルギー消費を98.73%、96.24%削減する。
論文 参考訳(メタデータ) (2026-01-02T13:10:53Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Runtime Construction of Large-Scale Spiking Neuronal Network Models on
GPU Devices [0.0]
本稿では,GPUメモリ上で対話的,動的,直接的にネットワーク接続を作成する新しい手法を提案する。
我々は,2つの神経科学的なモデルを用いて,コンシューマとデータセンタのGPUによるシミュレーション性能を検証する。
ネットワーク構築時間とシミュレーション時間は、他の最先端のシミュレーション技術と同等か短い。
論文 参考訳(メタデータ) (2023-06-16T14:08:27Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。