論文の概要: IMSSA: Deploying modern state-space models on memristive in-memory compute hardware
- arxiv url: http://arxiv.org/abs/2412.20215v1
- Date: Sat, 28 Dec 2024 16:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 22:07:02.525949
- Title: IMSSA: Deploying modern state-space models on memristive in-memory compute hardware
- Title(参考訳): IMSSA: 経験的インメモリコンピューティングハードウェアにモダンな状態空間モデルをデプロイする
- Authors: Sebastian Siegel, Ming-Jay Yang, John-Paul Strachan,
- Abstract要約: ディープラーニングにおける重要な課題は、長い時間的シーケンスを処理することだ。
トランスフォーマーはこのタスクの最先端になったが、過剰なメモリ要求に悩まされている。
構造化状態空間シーケンシャル(S4)モデルが最近登場し、非常に長いシーケンスコンテキストの処理を可能にしながら、固定されたメモリ状態を提供する。
我々は,S4Dモデルのサイズと計算要求を大幅に削減し,S4モデルのパワーをエッジハードウェアにもたらすことを目的としている。
- 参考スコア(独自算出の注目度): 0.15268600910098268
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Processing long temporal sequences is a key challenge in deep learning. In recent years, Transformers have become state-of-the-art for this task, but suffer from excessive memory requirements due to the need to explicitly store the sequences. To address this issue, structured state-space sequential (S4) models recently emerged, offering a fixed memory state while still enabling the processing of very long sequence contexts. The recurrent linear update of the state in these models makes them highly efficient on modern graphics processing units (GPU) by unrolling the recurrence into a convolution. However, this approach demands significant memory and massively parallel computation, which is only available on the latest GPUs. In this work, we aim to bring the power of S4 models to edge hardware by significantly reducing the size and computational demand of an S4D model through quantization-aware training, even achieving ternary weights for a simple real-world task. To this end, we extend conventional quantization-aware training to tailor it for analog in-memory compute hardware. We then demonstrate the deployment of recurrent S4D kernels on memrisitve crossbar arrays, enabling their computation in an in-memory compute fashion. To our knowledge, this is the first implementation of S4 kernels on in-memory compute hardware.
- Abstract(参考訳): 長い時間的シーケンスを処理することは、ディープラーニングにおける重要な課題である。
近年、Transformerはこのタスクの最先端になっているが、シーケンスを明示的に保存する必要があるため、過剰なメモリ要求に悩まされている。
この問題に対処するため、構造化状態空間シーケンシャル(S4)モデルが最近登場した。
これらのモデルのリカレントリニアアップデートにより、リカレンスを畳み込みにアンロールすることで、最新のグラフィックス処理ユニット(GPU)上で高い効率を実現できる。
しかし、このアプローチには大きなメモリと大規模な並列計算が必要であり、最新のGPUでしか利用できない。
本研究では,S4Dモデルのサイズと計算要求を量子化学習を通じて大幅に削減し,実世界の簡単な課題に対して3次重みを達成し,エッジハードウェアにS4Dモデルのパワーをもたらすことを目的とする。
この目的のために、従来の量子化学習を拡張し、アナログインメモリコンピューティングハードウェア用に調整する。
次に,再帰的なS4Dカーネルのmemrisitveクロスバーアレイへの展開を実演し,メモリ内計算方式で計算を可能にする。
我々の知る限り、これはインメモリコンピューティングハードウェア上でのS4カーネルの最初の実装である。
関連論文リスト
- SparseTransX: Efficient Training of Translation-Based Knowledge Graph Embeddings Using Sparse Matrix Operations [1.5998912722142724]
知識グラフ(KG)学習は、新しい知識を生成し、推論を行うための強力なフレームワークを提供する。
KG埋め込みのトレーニングには、特に大規模なデータセットでは、非常に長い時間がかかる可能性がある。
コア埋め込みをSpMMカーネルに置き換えることでこの問題に対処する。
これにより、複数のスキャッタ操作を単一の操作として統一し、トレーニング時間とメモリ使用量を削減できます。
論文 参考訳(メタデータ) (2025-02-24T08:21:48Z) - FlashRNN: I/O-Aware Optimization of Traditional RNNs on modern hardware [6.749483762719583]
状態追跡機能は、時系列タスクと論理的推論にとって重要である。
LSTMやGRUのような従来のRNNは、厳密にシーケンシャルな処理を犠牲にしてこれらの機能を備えている。
我々は、Tritonのハードウェア最適化FlashRNNと、レジスタレベルに最適化されたカーネルで、これらのネットワークがどれだけ高速になるかを示す。
論文 参考訳(メタデータ) (2024-12-10T18:50:37Z) - FlashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness [0.0]
FlashAttentionのようなメソッドは、不要なデータ転送を避けることによって、ネイティブのPyTorchよりもx6パフォーマンスの向上を実現している。
本稿では,学習モデルに対するダイアグラム的アプローチを提案する。
AmpereはSMあたり13個のワープに収まるが、Hopperはオーバーラップを改善し、1.22個のPFLOPを達成できる。
論文 参考訳(メタデータ) (2024-12-04T13:52:04Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Structured State Space Models for In-Context Reinforcement Learning [30.189834820419446]
構造化状態空間列(S4)モデルは、最近、長距離シーケンスモデリングタスクにおいて最先端の性能を達成した。
隠れた状態を並列に初期化およびリセットできるS4の変種に対する修正を提案する。
変更したアーキテクチャはシーケンス長のTransformerよりも高速に動作し、単純なメモリベースのタスクでRNNよりもパフォーマンスがよいことを示す。
論文 参考訳(メタデータ) (2023-03-07T15:32:18Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - A Co-design view of Compute in-Memory with Non-Volatile Elements for
Neural Networks [12.042322495445196]
次世代のコンピューティングハードウェアにおいて,コンピュート・イン・メモリがいかに重要な役割を果たすかを論じる。
非揮発性メモリベースのクロスバーアーキテクチャは、アナログプロセスを使用して行列ベクトル乗算演算を並列化するエンジンの心臓を形成する。
クロスバーアーキテクチャは、時にはニューロモルフィックアプローチと呼ばれ、将来のコンピュータにおいて重要なハードウェア要素となる。
論文 参考訳(メタデータ) (2022-06-03T15:59:46Z) - AxoNN: An asynchronous, message-driven parallel framework for
extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文 参考訳(メタデータ) (2021-10-25T14:43:36Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。