論文の概要: Characterizing State Space Model (SSM) and SSM-Transformer Hybrid Language Model Performance with Long Context Length
- arxiv url: http://arxiv.org/abs/2507.12442v2
- Date: Sat, 19 Jul 2025 08:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 12:28:43.155155
- Title: Characterizing State Space Model (SSM) and SSM-Transformer Hybrid Language Model Performance with Long Context Length
- Title(参考訳): 長い文脈長を用いた状態空間モデル(SSM)とSSM変換器ハイブリッド言語モデルの性能評価
- Authors: Saptarshi Mitra, Rachid Karami, Haocheng Xu, Sitao Huang, Hyoukjun Kwon,
- Abstract要約: ローカルデバイス上で連続した長文入力を処理できるマシンインテリジェンスへの需要は急速に伸びている。
従来のTransformerアーキテクチャは効率が悪く、これらのタスクには使用できないことが多い。
これにより、ステートスペースモデル(SSM)やハイブリッドといった、ほぼ直線的なスケーリングを約束する新しいアーキテクチャへのパラダイムシフトが加速した。
- 参考スコア(独自算出の注目度): 2.029073851107784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The demand for machine intelligence capable of processing continuous, long-context inputs on local devices is growing rapidly. However, the quadratic complexity and memory requirements of traditional Transformer architectures make them inefficient and often unusable for these tasks. This has spurred a paradigm shift towards new architectures like State Space Models (SSMs) and hybrids, which promise near-linear scaling. While most current research focuses on the accuracy and theoretical throughput of these models, a systematic performance characterization on practical consumer hardware is critically needed to guide system-level optimization and unlock new applications. To address this gap, we present a comprehensive, comparative benchmarking of carefully selected Transformer, SSM, and hybrid models specifically for long-context inference on consumer and embedded GPUs. Our analysis reveals that SSMs are not only viable but superior for this domain, capable of processing sequences up to 220K tokens on a 24GB consumer GPU-approximately 4x longer than comparable Transformers. While Transformers may be up to 1.8x faster at short sequences, SSMs demonstrate a dramatic performance inversion, becoming up to 4x faster at very long contexts (~57K tokens). Our operator-level analysis reveals that custom, hardware-aware SSM kernels dominate the inference runtime, accounting for over 55% of latency on edge platforms, identifying them as a primary target for future hardware acceleration. We also provide detailed, device-specific characterization results to guide system co-design for the edge. To foster further research, we will open-source our characterization framework.
- Abstract(参考訳): ローカルデバイス上で連続した長文入力を処理できるマシンインテリジェンスへの需要は急速に増加している。
しかしながら、従来のTransformerアーキテクチャの二次的な複雑さとメモリ要件は、これらのタスクでは非効率で、しばしば使用できない。
これにより、ステートスペースモデル(SSM)やハイブリッドといった、ほぼ直線的なスケーリングを約束する新しいアーキテクチャへのパラダイムシフトが加速した。
最近の研究は、これらのモデルの精度と理論的スループットに重点を置いているが、システムレベルの最適化をガイドし、新しいアプリケーションをアンロックするには、実用的なハードウェア上での体系的な性能評価が不可欠である。
このギャップに対処するために、コンシューマと組込みGPUの長文推論に特化して、慎重に選択されたTransformer、SSM、ハイブリッドモデルの総合的比較ベンチマークを示す。
我々の分析によると、SSMは実行可能なだけでなく、この領域に勝るもので、24GBのコンシューマGPU上で最大220Kのトークンを処理できる。
Transformerは短いシーケンスで最大1.8倍高速になるが、SSMは劇的なパフォーマンス逆転を示し、非常に長いコンテキストで最大4倍高速になる(約57Kトークン)。
我々のオペレータレベルの分析では、カスタムハードウェア対応のSSMカーネルが推論ランタイムを支配しており、エッジプラットフォーム上でのレイテンシの55%以上を占めており、将来のハードウェアアクセラレーションの主要なターゲットとして特定されている。
また、エッジのシステム共同設計をガイドするために、デバイス固有の詳細な特徴付け結果も提供する。
さらなる研究を促進するため、我々はキャラクタリゼーションフレームワークをオープンソース化する。
関連論文リスト
- Systolic Array-based Accelerator for Structured State-Space Models [1.137896937254823]
State-Space Models (SSM) は非常に長いデータシーケンスをリカレントやトランスフォーマーベースのモデルよりも効率的に処理する。
本稿では,SSMの高速化を目的としたハードウェアアクセラレータEpochCoreを紹介する。
EpochCoreは、GPUと比較してLRAデータセットの平均2000倍のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-07-29T00:01:57Z) - QS4D: Quantization-aware training for efficient hardware deployment of structured state-space sequential models [0.8474310104568011]
構造化状態空間モデル(Structured State Space Model, SSM)は、ディープラーニングモデルの新しいクラスとして登場した。
QATは、様々なパフォーマンス指標において、SSMの複雑さを最大2桁まで減少させることができる。
その結果,QATはアナログノイズに対する堅牢性を高め,構造的プルーニングを可能にすることがわかった。
論文 参考訳(メタデータ) (2025-07-08T15:19:14Z) - Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。
HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文 参考訳(メタデータ) (2025-04-14T00:29:49Z) - Leveraging State Space Models in Long Range Genomics [1.130790932059036]
長距離依存関係はゲノム構造や機能を理解する上で重要であるが、ほとんどの従来の手法はそれらと競合する。
我々は、長距離ゲノミクスモデリングタスクにおいて、2つのSSMにインスパイアされたアーキテクチャをベンチマークすることで、ステートスペースモデル(SSM)を有望な代替手段として検討する。
SSMは、トランスフォーマーのパフォーマンスにマッチし、複数のタスクにまたがる印象的なゼロショット外挿を示し、トレーニング中に見られるものより10倍から100倍長いコンテキストを処理する。
論文 参考訳(メタデータ) (2025-04-07T18:34:06Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文 参考訳(メタデータ) (2023-10-04T17:17:06Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。