Fugu-MT 論文翻訳(概要): GatedFWA: Linear Flash Windowed Attention with Gated Associative Memory

論文の概要: GatedFWA: Linear Flash Windowed Attention with Gated Associative Memory

arxiv url: http://arxiv.org/abs/2512.07782v1
Date: Mon, 08 Dec 2025 18:11:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.99599
Title: GatedFWA: Linear Flash Windowed Attention with Gated Associative Memory
Title（参考訳）: GatedFWA: Gated Associative Memory を備えたリニアフラッシュウィンドウアテンション
Authors: Jiaxu Liu, Yuhe Bai, Christos-Savvas Bouganis,
Abstract要約: GatedFWAはメモリアンダーラインGated(アンダーラインFlash)アンダーラインWindowedアンダーラインAttentionメカニズムである。メモリ更新を安定させ、グラデーションフローを制御可能にする。言語モデリングベンチマークでは、GatedFWAは、無視できないオーバーヘッドで競合スループットを提供する。
参考スコア（独自算出の注目度）: 7.180426235884756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern autoregressive models rely on attention, yet the Softmax full attention in Transformers scales quadratically with sequence length. Sliding Window Attention (SWA) achieves linear-time encoding/decoding by constraining the attention pattern, but under an \textit{Associative Memory} interpretation, its difference-style update renders the training objective effectively \emph{unbounded}. In contrast, Softmax attention normalizes updates, leading to \emph{memory shrinkage and gradient vanishing}. We propose GatedFWA: a Memory-\underline{Gated} (\underline{F}lash) \underline{W}indowed \underline{A}ttention mechanism that preserves SWAs efficiency while stabilizing memory updates and making gradient flow controllable. In essence, GatedFWA accumulate a per-token/head gate into a decay bias added to the attention logits, acting as a learnable contraction in the memory recurrence. We implement a fused one-pass gate preprocessing and a FlashAttention-compatible kernel that injects the gate under a sliding mask, ensuring I/O efficiency and numerical stability. On language modelling benchmarks, GatedFWA delivers competitive throughput with negligible overhead and better use of global context, and it integrates cleanly with token compression/selection methods such as NSA and generalizes to various autoregressive domains.
Abstract（参考訳）: 現代の自己回帰モデルは注意に頼っているが、TransformersのSoftmaxは完全に注意を向けている。 SWA(Sliding Window Attention)は、注意パターンを制約することで、線形時間符号化/復号化を実現するが、その差分スタイルの更新は、トレーニング対象のemph{unbounded}を効果的に描画する。対照的に、Softmaxのアテンションは更新を正規化し、 \emph{Memory shrinkage and gradient vanishing} に繋がる。メモリ更新を安定化させ、勾配流を制御可能にしつつ、SWAの効率を保ちながら、SWAの効率を保ちながら、勾配流を制御可能なGatedFWAを提案する。本質的には、GatedFWAは1つのトーケン/ヘッドゲートをアテンションログに追加される減衰バイアスに蓄積し、記憶再発の学習可能な収縮として機能する。我々は,1パスゲート前処理とFlashAttention互換カーネルを実装し,スライディングマスクの下でゲートを注入し,I/O効率と数値安定性を確保する。言語モデリングベンチマークでは、GatedFWAは、無視できるオーバーヘッドとグローバルコンテキストのより良い使用による競合スループットを提供し、NSAのようなトークン圧縮/選択メソッドとクリーンに統合し、さまざまな自己回帰ドメインに一般化する。

関連論文リスト

Stateful Token Reduction for Long-Video Hybrid VLMs [69.6930118088911]
ハイブリッドビデオビジョン言語モデル(VLM)のクエリ条件付きトークン削減について検討する。本稿では,低段階から高段階の減算スケジュールと,注意とマンバブロックの両ブロックを対象とした言語認識スコアリング機構を提案する。積極的圧縮条件下では,本手法はテスト時にほぼベースライン精度で精度の高いプリフィルング・スピードアップを実現する。
論文参考訳（メタデータ） (2026-02-27T08:11:06Z)
AllMem: A Memory-centric Recipe for Efficient Long-context Modeling [32.025154452526856]
大規模言語モデル(LLM)は、長時間のタスクにおいて重大なパフォーマンスボトルネックに直面する。 SWA(Sliding Window Attention)とTTT(Non-linear Test-Time Training)メモリネットワークを統合した,新規で効率的なハイブリッドアーキテクチャであるtextscAllMemを紹介する。
論文参考訳（メタデータ） (2026-02-14T09:04:28Z)
Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文参考訳（メタデータ） (2026-02-06T16:39:10Z)
Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression [53.48692193399171]
Gated KalmaNet(GKA)は、次のトークンを予測する際に、すべての過去を説明することによってギャップを低減するレイヤである。テスト時間におけるオンラインリッジ回帰問題を一定メモリと線形計算コストで解決する。ロングコンテキストでは、GKAは現実世界のRAGタスクとLongQAタスクを最大128kトークンまで拡張し、他の薄型メモリベースラインよりも10ドル%以上の相対的な改善を実現している。
論文参考訳（メタデータ） (2025-11-26T03:26:37Z)
OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文参考訳（メタデータ） (2025-10-08T03:55:24Z)
REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。 ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文参考訳（メタデータ） (2025-10-06T02:48:13Z)
SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。 SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。 SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文参考訳（メタデータ） (2025-08-31T17:08:33Z)
On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文参考訳（メタデータ） (2025-06-11T01:25:06Z)
Efficient Pretraining Length Scaling [21.4715211093876]
本稿では,事前学習時に効率よく長さのスケーリングを可能にする新しいフレームワークであるParallel Hidden Decoding Transformer(textitPHD-Transformer)を提案する。 textitPHD-Transformerは、オリジナルのトークンと隠された復号トークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを実現している。
論文参考訳（メタデータ） (2025-04-21T09:41:26Z)
Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文参考訳（メタデータ） (2025-03-02T18:12:50Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Stabilizing Transformer Training by Preventing Attention Entropy Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文参考訳（メタデータ） (2023-03-11T03:30:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。