論文の概要: Sessa: Selective State Space Attention
- arxiv url: http://arxiv.org/abs/2604.18580v1
- Date: Mon, 20 Apr 2026 17:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:53.042135
- Title: Sessa: Selective State Space Attention
- Title(参考訳): Sessa: Selective State Space Attention
- Authors: Liubomyr Horbatko,
- Abstract要約: フィードバックパス内に注意を向けるデコーダであるSessaを紹介する。
Sessaは、TransformerやMambaスタイルの短文言語モデリングのベースラインと競合しながら、長いコンテキストのベンチマークで最強のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern sequence models are dominated by Transformers, where self-attention mixes information from the visible context in an input-dependent way. However, when retrieval is not sharp and attention remains diffuse over an effective support $S_{\mathrm{eff}}(t)$, the influence of any individual token is diluted, typically scaling as $O(1/S_{\mathrm{eff}}(t))$ and reaching $O(1/\ell)$ for old tokens in full-prefix settings. Structured state-space models process sequences recurrently through an explicit feedback path; selective variants such as Mamba make this feedback input-dependent, yet when freeze time cannot be sustained over long intervals, their long-range sensitivity decays exponentially with lag. Existing architectures therefore either retrieve from the past in a single read or propagate information through a single feedback chain. We introduce Sessa, a decoder that places attention inside a feedback path, enabling recurrent many-path aggregation within a layer. Under stated assumptions, Sessa admits regimes with a power-law memory tail in lag $\ell$ of order $O(\ell^{-β})$ for $0<β<1$, which is asymptotically slower than $1/\ell$; moreover, this rate is tight in an explicit diffuse uniform-routing setting where the influence is $Θ(\ell^{-β})$. Under the same conditions, only Sessa among the compared model classes realizes flexible selective retrieval, including non-decaying profiles. Empirically, under matched architectures and training budgets, Sessa achieves the strongest performance on our long-context benchmarks while remaining competitive with Transformer and Mamba style baselines on short-context language modeling.
- Abstract(参考訳): 現代のシーケンスモデルはトランスフォーマーによって支配されており、自己注意は入力依存の方法で可視的コンテキストからの情報を混合する。
しかし、検索が鋭くなく、効果的なサポートである$S_{\mathrm{eff}}(t)$に対して注意が分散していない場合、個々のトークンの影響は希薄になり、通常は$O(1/S_{\mathrm{eff}}(t))$としてスケールし、フルプレフィックス設定で古いトークンに対して$O(1/\ell)$に達する。
構造的状態空間モデルは、明示的なフィードバック経路を通じて繰り返し処理するが、Mambaのような選択的な変種はこのフィードバックを入力依存にするが、凍結時間が長い間隔で持続できない場合、その長距離感度はラグとともに指数関数的に低下する。
したがって、既存のアーキテクチャは、1つの読み取りで過去から取得するか、1つのフィードバックチェーンを介して情報を伝達する。
フィードバックパス内に注意を向けるデコーダであるSessaを導入し、レイヤ内の複数パスの集約をリカレント可能にする。
条件付き仮定では、Sessa は lag $\ell$ of order $O(\ell^{-β})$ for $0<β<1$, 漸近的に 1/\ell$ よりも遅く、また、この値は、その影響が$(\ell^{-β})$である明示的な拡散均一な条件において厳密である。
同じ条件下では、比較モデルクラスの中でSessaのみが非分解プロファイルを含むフレキシブルな選択的検索を実現する。
経験的に、一致したアーキテクチャとトレーニング予算の下で、Sessaは、TransformerやMambaスタイルの短文言語モデリングのベースラインと競合しながら、長文のベンチマークで最強のパフォーマンスを達成しています。
関連論文リスト
- Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - $π$-Attention: Periodic Sparse Transformers for Efficient Long-Context Modeling [5.216774377033164]
PiAttentionは周期的なスパース変換器で、注意をリングローカルな地区に分解する。
PiAttentionは、RingAttentionよりも8.3%低いパープレキシティで、高密度の注意品質と一致または超える。
論文 参考訳(メタデータ) (2025-11-12T09:09:13Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production [55.76222360698305]
我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。
任意のトークンに対して、モデルは don't know> 出力を出力することで、追加の計算ステップを要求できる。
CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
論文 参考訳(メタデータ) (2025-10-13T21:07:05Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Scaling Embedding Layers in Language Models [61.939921364422936]
$SCONE$は入力埋め込み層を拡張して言語モデルのパフォーマンスを向上させる新しいメソッドである。
SCONE$は、n-gramの頻繁なセットに埋め込みを導入しながら、元の語彙を保持します。
これらの埋め込みは、各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。
$SCONE$は、n-gram埋め込みの数を増やし、それらを学ぶために使用するモデルをスケーリングする、という2つの新しいスケーリング戦略を可能にします。
論文 参考訳(メタデータ) (2025-02-03T18:59:32Z) - ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。
ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文 参考訳(メタデータ) (2025-01-24T15:33:05Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。