論文の概要: Sessa: Selective State Space Attention
- arxiv url: http://arxiv.org/abs/2604.18580v2
- Date: Tue, 21 Apr 2026 16:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.958895
- Title: Sessa: Selective State Space Attention
- Title(参考訳): Sessa: Selective State Space Attention
- Authors: Liubomyr Horbatko,
- Abstract要約: 本稿では、繰り返しフィードバックパス内に注意を向けるデコーダであるSessaを提案する。
Sessaはパワーローメモリのテールを$O(ell-)$$01$で認めており、TransformerやMambaスタイルのベースラインよりも劣化が遅い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern sequence modeling is dominated by two families: Transformers, whose self-attention can access arbitrary elements of the visible sequence, and structured state-space models, which propagate information through an explicit recurrent state. These mechanisms face different limitations on long contexts: when attention is diffuse, the influence of individual tokens is diluted across the effective support, while recurrent state propagation can lose long-range sensitivity unless information is actively preserved. As a result, both mechanisms face challenges in preserving and selectively retrieving information over long contexts. We propose Sessa, a decoder that places attention inside a recurrent feedback path. This creates many attention-based paths through which past tokens can influence future states, rather than relying on a single attention read or a single recurrent chain. We prove that, under explicit assumptions and matched regimes, Sessa admits power-law memory tails $O(\ell^{-β})$ for $0 < β< 1$, with slower decay than in the corresponding Transformer and Mamba-style baselines. We further give an explicit construction that achieves this power-law rate. Under the same assumptions, Sessa is the only model class among those considered that realizes flexible selective retrieval, including profiles whose influence does not decay with distance. Consistent with this theoretical advantage, across matched experiments, Sessa achieves the strongest performance on long-context benchmarks while remaining competitive with Transformer and Mamba-style baselines on short-context language modeling.
- Abstract(参考訳): 現代のシーケンスモデリングは、2つのファミリーによって支配されている: 自己注意が可視シーケンスの任意の要素にアクセスすることができるトランスフォーマーと、明示的なリカレント状態を通じて情報を伝達する構造化された状態空間モデルである。
これらのメカニズムは、注意が拡散している場合、個々のトークンの影響が有効なサポートによって希薄になる一方、繰り返し状態の伝播は、情報がアクティブに保存されない限り、長距離感度を失う可能性がある。
その結果、どちらのメカニズムも長期にわたる情報保存と選択的検索の課題に直面している。
本稿では、繰り返しフィードバックパス内に注意を向けるデコーダであるSessaを提案する。
これにより、過去のトークンが1つのアテンションリードや1つのリカレントチェーンに頼るのではなく、将来の状態に影響を及ぼすような、多くのアテンションベースのパスが生成される。
明示的な仮定と一致した規則の下で、Sessa はパワーローメモリのテール $O(\ell^{-β})$$0 < β< 1$ を認め、対応する Transformer や Mamba スタイルのベースラインよりも劣化が遅いことを証明している。
我々はさらに、このパワー・ロー・レートを達成するための明示的な構成を与えます。
同じ仮定の下では、Sessaはフレキシブルな選択的検索を実現すると考えられるクラスの中で唯一のモデルクラスである。
この理論的優位性とは対照的に、Sessaは長文のベンチマークにおいて最強のパフォーマンスを達成しつつ、TransformerやMambaスタイルの短文の言語モデリングのベースラインと競争力を維持している。
関連論文リスト
- Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - $π$-Attention: Periodic Sparse Transformers for Efficient Long-Context Modeling [5.216774377033164]
PiAttentionは周期的なスパース変換器で、注意をリングローカルな地区に分解する。
PiAttentionは、RingAttentionよりも8.3%低いパープレキシティで、高密度の注意品質と一致または超える。
論文 参考訳(メタデータ) (2025-11-12T09:09:13Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production [55.76222360698305]
我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。
任意のトークンに対して、モデルは don't know> 出力を出力することで、追加の計算ステップを要求できる。
CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
論文 参考訳(メタデータ) (2025-10-13T21:07:05Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Scaling Embedding Layers in Language Models [61.939921364422936]
$SCONE$は入力埋め込み層を拡張して言語モデルのパフォーマンスを向上させる新しいメソッドである。
SCONE$は、n-gramの頻繁なセットに埋め込みを導入しながら、元の語彙を保持します。
これらの埋め込みは、各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。
$SCONE$は、n-gram埋め込みの数を増やし、それらを学ぶために使用するモデルをスケーリングする、という2つの新しいスケーリング戦略を可能にします。
論文 参考訳(メタデータ) (2025-02-03T18:59:32Z) - ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。
ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文 参考訳(メタデータ) (2025-01-24T15:33:05Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。