論文の概要: Forget Attention: Importance-Aware Attention Is All You Need
- arxiv url: http://arxiv.org/abs/2606.02332v2
- Date: Tue, 02 Jun 2026 05:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.560683
- Title: Forget Attention: Importance-Aware Attention Is All You Need
- Title(参考訳): Forget Attention: 重要度を認識した注意は必要なだけ
- Authors: Suhyeong Shin, Yeongwook Yang,
- Abstract要約: 本稿では,SSMに基づく重要用語をアテンションスコア内に直接付加するSISA(SSM-Informed Softmax Attention)を提案する。
SISAはステップ1KからNIAHを100%達成し、Transformerの検索収束の7倍高速である。
- 参考スコア(独自算出の注目度): 2.879036956042182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.
- Abstract(参考訳): 注意のグローバル検索と状態空間モデル(SSM)の逐次重要信号を組み合わせることは、ハイブリッド言語モデリングのオープンな課題である。
トランスフォーマーはどこにでも見えますが、優先順位付けはできません。
既存のハイブリッド -- Jamba (ブロックレベル) と Hymba (ヘッドレベル) -- は2つを別々の区画に配置する。
我々は,SISA (SSM-Informed Softmax Attention) を提案する。これは,SSM由来の重要用語をアテンションスコアから直接追加し,拡張クエリ/キーベクトルに対する単一のSDPAコールとして完全な操作を実現する。
152M / 5B トークンで SISA は LAMBADA-greedy 17.3% (vs. Transformer 13.9 と Mamba-3 15.5) に達し、ステップ 1K から NIAH 100% を達成する。
したがって、SISAはSSM-attention hybrids(スコアレベル融合)の第3の設計軸を、この分野を支配したブロックレベルおよびヘッドレベルパラダイムを超えて定義している。
関連論文リスト
- Retrieval-Aware Distillation for Transformer-SSM Hybrids [56.85859614817908]
状態空間モデル(SSM)は効率的なシーケンスモデリングを提供するが、文脈内検索を必要とするベンチマークではTransformerに遅れがある。
本稿では, 事前学習したトランスフォーマーを, これらの検索クリティカルヘッドのみを保存して, ハイブリッド学習者に変換する「検索対応蒸留*」を提案する。
本研究は,* 2% の注意力の保持が,検索重度タスクにおける教師のパフォーマンスの95%以上を回復させることを示す。
論文 参考訳(メタデータ) (2026-02-11T21:05:00Z) - Apriel-H1: Towards Efficient Enterprise Reasoning Models [6.630534140883356]
ハイブリッドLLMのApriel-H1ファミリーは、15Bモデルサイズでの効率的な推論のためにトランスフォーマーアテンションとSSMシークエンスミキサーを組み合わせた。
SSM-to-MHA比の異なるApriel-H1-15B-Thinkerの蒸留後変種を複数リリースし、より多くのマンバ層がMHAに置き換わるにつれて、推論性能が劣化するかを分析した。
論文 参考訳(メタデータ) (2025-11-04T15:17:43Z) - A2Mamba: Attention-augmented State Space Models for Visual Recognition [45.68176825375723]
本稿では,トランスフォーマー-マンバハイブリッドネットワークアーキテクチャであるA2Mambaを提案する。
A2SSMのキーステップは、空間的にSSMの隠された状態を集約することで、異種交叉アテンションを実行する。
私たちのA2Mambaは、視覚認識タスクにおいて、以前のConvNet-、Transformer-、およびMambaベースのアーキテクチャよりも優れています。
論文 参考訳(メタデータ) (2025-07-22T14:17:08Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.537068118473066]
Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。
本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文 参考訳(メタデータ) (2024-07-02T09:51:56Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Hungry Hungry Hippos: Towards Language Modeling with State Space Models [17.412372994222114]
状態空間モデル (SSM) は、いくつかのモダリティにおいて最先端のシーケンスモデリング性能を示しているが、言語モデリングではあまり注目されていない。
本稿では,SSM間の表現力ギャップと言語モデリングにおける注意点の理解,およびSSM間のハードウェア障壁の低減について述べる。
論文 参考訳(メタデータ) (2022-12-28T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。