Fugu-MT 論文翻訳(概要): FlashRNN: Optimizing Traditional RNNs on Modern Hardware

論文の概要: FlashRNN: Optimizing Traditional RNNs on Modern Hardware

arxiv url: http://arxiv.org/abs/2412.07752v2
Date: Mon, 13 Jan 2025 17:34:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 21:19:24.825372
Title: FlashRNN: Optimizing Traditional RNNs on Modern Hardware
Title（参考訳）: FlashRNN: 最新のハードウェア上での従来のRNNの最適化
Authors: Korbinian Pöppel, Maximilian Beck, Sepp Hochreiter,
Abstract要約: 状態追跡機能は、時系列タスクと論理的推論にとって重要である。 LSTMやGRUのような従来のRNNは、厳密にシーケンシャルな処理を犠牲にしてこれらの機能を備えている。我々は、Tritonのハードウェア最適化FlashRNNとカーネルをレジスタレベルに最適化することで、これらのネットワークがどれだけ高速になるかを示す。
参考スコア（独自算出の注目度）: 6.749483762719583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Transformers and other sequence-parallelizable neural network architectures seem like the current state of the art in sequence modeling, they specifically lack state-tracking capabilities. These are important for time-series tasks and logical reasoning. Traditional RNNs like LSTMs and GRUs, as well as modern variants like sLSTM do have these capabilities at the cost of strictly sequential processing. While this is often seen as a strong limitation, we show how fast these networks can get with our hardware-optimization FlashRNN in Triton and CUDA, optimizing kernels to the register level on modern GPUs. We extend traditional RNNs with a parallelization variant that processes multiple RNNs of smaller hidden state in parallel, similar to the head-wise processing in Transformers. To enable flexibility on different GPU variants, we introduce a new optimization framework for hardware-internal cache sizes, memory and compute handling. It models the hardware in a setting using polyhedral-like constraints, including the notion of divisibility. This speeds up the solution process in our ConstrINT library for general integer constraint satisfaction problems (integer CSPs). We show that our kernels can achieve 50x speed-ups over a vanilla PyTorch implementation and allow 40x larger hidden sizes compared to our Triton implementation. Our open-source kernels and the optimization library are released here to boost research in the direction of state-tracking enabled RNNs and sequence modeling: \url{https://github.com/NX-AI/flashrnn}
Abstract（参考訳）: Transformerや他のシーケンス並列化可能なニューラルネットワークアーキテクチャは、シーケンスモデリングにおける現在の最先端のように見えるが、特に状態追跡機能は欠如している。これらは時系列タスクと論理的推論にとって重要である。 LSTMやGRUのような従来のRNNや、sLSTMのような現代的な変種は、厳密なシーケンシャルな処理を犠牲にしてこれらの機能を備えている。これはしばしば強い制限と見なされるが、これらのネットワークがTritonとCUDAのハードウェア最適化FlashRNNでどれだけ速くなり、カーネルを現代のGPUのレジスタレベルに最適化できるかを示す。我々は従来のRNNを並列化の変種で拡張し、トランスフォーマーのヘッドワイド処理と同様、より小さな隠れ状態の複数のRNNを並列に処理する。異なるGPU変種に対するフレキシビリティを実現するため,ハードウェア内部キャッシュサイズ,メモリ,計算処理のための新しい最適化フレームワークを導入する。可視性の概念を含む多面体のような制約を使って、ハードウェアをセッティングする。これにより、一般的な整数制約満足問題(整数CSP)に対するConstrINTライブラリのソリューションプロセスを高速化します。我々のカーネルは、バニラPyTorch実装で50倍のスピードアップを実現でき、Triton実装に比べて40倍大きな隠れサイズを実現できることを示す。我々のオープンソースカーネルと最適化ライブラリは、状態追跡可能なRNNとシーケンスモデリングの方向の研究を促進するために、ここでリリースされている。

関連論文リスト

FeNN: A RISC-V vector processor for Spiking Neural Network acceleration [0.1350479308585481]
スパイキングニューラルネットワーク(SNN)は、AIシステムのエネルギー要求を大幅に削減する可能性がある。本稿では,FPGA 上でシミュレーションを行う SNN に適した RISC-V-based soft vector processor (FeNN) を提案する。
論文参考訳（メタデータ） (2025-06-13T13:13:54Z)
msf-CNN: Patch-based Multi-Stage Fusion with Convolutional Neural Networks for TinyML [0.4297070083645049]
我々は畳み込みニューラルネットワーク(CNN)のための最適な融合設定を効率的に見つける新しい手法であるmsf-CNNを紹介する。我々はmsf-CNNが従来の技術に比べて50%少ないRAMで推論できることを示す。
論文参考訳（メタデータ） (2025-05-16T17:47:15Z)
Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels [14.756974816917584]
ゲーティングを備えた線形RNNは、最近、言語モデリングにおけるトランスフォーマーと比較して、競合する性能を示した。本稿では,線形RNNのための新しいカーネルアルゴリズムである Tiled Flash Linear Attention (TFLA) について述べる。高速化ベンチマークでは、TFLAに基づく新しいmLSTMカーネルが、高度に最適化されたFlashアテンション、線形アテンション、およびMambaカーネルより優れていることを示す。
論文参考訳（メタデータ） (2025-03-18T16:09:47Z)
Fixed-Point RNNs: From Diagonal to Dense in a Few Iterations [10.851383867834052]
我々は,高密度線形RNNを並列化可能な対角線RNNの固定点として1層に計算する。一般的なおもちゃのタスクである$A_5$, $S_5$, copying, and modular arithmeticsで最先端の結果を得る。
論文参考訳（メタデータ） (2025-03-13T18:50:22Z)
Were RNNs All We Needed? [55.822693848969855]
本研究では、リカレントニューラルネットワーク(RNN)に着目し、歴史的観点からのシーケンスモデリングを再考する。これらのモデルを簡単にすることで、従来のモデルよりも少ないパラメータを使用する最小バージョン(minLSTMとminGRU)を導出でき、トレーニング中に完全に並列化可能であり、トランスフォーマーを含む最近のモデルに対抗して、様々なタスクにおいて驚くほど競争力のあるパフォーマンスを達成することができることを実証した。
論文参考訳（メタデータ） (2024-10-02T03:06:49Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文参考訳（メタデータ） (2022-01-16T07:22:47Z)
Sub-bit Neural Networks: Learning to Compress and Accelerate Binary Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。 SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文参考訳（メタデータ） (2021-10-18T11:30:29Z)
Fully Spiking Variational Autoencoder [66.58310094608002]
スパイキングニューラルネットワーク(SNN)は、超高速で超低エネルギー消費のニューロモルフィックデバイス上で動作することができる。本研究では,SNNを用いた可変オートエンコーダ(VAE)を構築し,画像生成を実現する。
論文参考訳（メタデータ） (2021-09-26T06:10:14Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Neural Architecture Search as Program Transformation Exploration [7.090165638014331]
コンパイラはハードウェア並列性とメモリ階層を利用するためにプログラム変換を適用する。 neural architecture search (nas)技術は、畳み込みのグルーピングやボトルネックのような操作によってネットワークを変異させる。本研究では,表現能力の概念に依存するプログラム変換として,そのようなニューラルアーキテクチャの操作を表現する。
論文参考訳（メタデータ） (2021-02-12T16:11:05Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
Compiling Spiking Neural Networks to Neuromorphic Hardware [4.273223677453178]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上で実行される機械学習アプリケーションのエネルギー消費を減少させる。本稿では,資源制約のあるニューロモルフィックハードウェア上でSNNを分析し,コンパイルする手法を提案する。
論文参考訳（メタデータ） (2020-04-07T21:13:27Z)
TFApprox: Towards a Fast Emulation of DNN Approximate Hardware Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。 DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2～3桁遅い。
論文参考訳（メタデータ） (2020-02-21T08:22:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。