論文の概要: Benchmarking the Computational and Representational Efficiency of State Space Models against Transformers on Long-Context Dyadic Sessions
- arxiv url: http://arxiv.org/abs/2601.01237v1
- Date: Sat, 03 Jan 2026 17:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.137167
- Title: Benchmarking the Computational and Representational Efficiency of State Space Models against Transformers on Long-Context Dyadic Sessions
- Title(参考訳): 長期セッションにおける変圧器に対する状態空間モデルの計算・表現効率のベンチマーク
- Authors: Abidemi Koledoye, Chinemerem Unachukwu, Gold Nwobu, Hasin Rana,
- Abstract要約: State Space Models (SSM)は、長文シーケンスモデリングのためのTransformerに代わる有望な代替品として登場した。
本稿では,Mamba SSM とLLaMA Transformer との比較を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State Space Models (SSMs) have emerged as a promising alternative to Transformers for long-context sequence modeling, offering linear $O(N)$ computational complexity compared to the Transformer's quadratic $O(N^2)$ scaling. This paper presents a comprehensive benchmarking study comparing the Mamba SSM against the LLaMA Transformer on long-context sequences, using dyadic therapy sessions as a representative test case. We evaluate both architectures across two dimensions: (1) computational efficiency, where we measure memory usage and inference speed from 512 to 8,192 tokens, and (2) representational efficiency, where we analyze hidden state dynamics and attention patterns. Our findings provide actionable insights for practitioners working with long-context applications, establishing precise conditions under which SSMs offer advantages over Transformers.
- Abstract(参考訳): State Space Models (SSM) は、Transformer の2次 $O(N^2)$スケーリングと比較して線形$O(N)$計算の複雑さを提供する、長文シーケンスモデリングのための Transformer の有望な代替品として登場した。
本稿では,Mamba SSMとLLaMA Transformerを比較し,Dyadic therapy セッションを代表的なテストケースとして用いた総合的なベンチマーク研究を提案する。
1) メモリ使用率と推論速度を512から8,192トークンまで計測する計算効率と,(2) 隠れ状態のダイナミクスと注意パターンを解析する表現効率の2つの側面で両アーキテクチャを評価した。
本研究は,SSMがトランスフォーマーよりも有利な条件を明確化し,長期的コンテキストの応用を実践する実践者に対して有効な知見を提供するものである。
関連論文リスト
- xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity [22.40851170527]
スケーリング法則は、大規模言語モデルの成功において中心的な役割を果たす。
xLSTMのような最近の選択肢は、コンテキスト長に関する線形複雑性を提供する。
xLSTMの利点は、トレーニングと推論のコンテキストが大きくなるにつれて拡大します。
論文 参考訳(メタデータ) (2025-10-02T17:14:34Z) - Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models [68.31088463716269]
状態空間モデル(SSM)における遷移行列の構造的スパースパラメトリゼーションを提案する。
我々の方法PD-SSMは、遷移行列をカラム1ホット行列(P$)と複素数値対角行列(D$)の積としてパラメータ化する。
このモデルは、様々なFSA状態追跡タスクにおいて、現代のSSMの多種多様なバリエーションを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-26T12:46:30Z) - On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。
ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。
LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文 参考訳(メタデータ) (2025-01-24T15:34:50Z) - State Space Models are Strong Text Rerankers [33.41687512973575]
Mambaのようなステートスペースモデル(SSM)は有望な利点を提供する。
その可能性にもかかわらず、SSMのテキストの再ランクにおける有効性は未定のままである。
Mambaアーキテクチャは、同様のサイズのトランスフォーマーベースのモデルに匹敵する、競合するテキストランキングのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-18T21:42:15Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。