論文の概要: Short window attention enables long-term memorization
- arxiv url: http://arxiv.org/abs/2509.24552v1
- Date: Mon, 29 Sep 2025 10:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.914383
- Title: Short window attention enables long-term memorization
- Title(参考訳): ショートウィンドウアテンションは長期記憶を可能にする
- Authors: Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, Matthijs Douze, Maria Lomeli, Jade Copet, Pierre-Emmanuel Mazaré, Gabriel Synnaeve, Hervé Jégou,
- Abstract要約: スライディングウインドウの注意とxLSTM線形RNN層からなるハイブリッドアーキテクチャであるSWAXを紹介する。
SWAXの反直感的な発見は、大きなスライディングウィンドウが長いコンテキスト性能を向上しないことである。
- 参考スコア(独自算出の注目度): 33.00092063079161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works show that hybrid architectures combining sliding window softmax attention layers with linear recurrent neural network (RNN) layers outperform both of these architectures taken separately. However, the impact of the window length and the interplay between softmax attention and linear RNN layers remain under-studied. In this work, we introduce SWAX, a hybrid architecture consisting of sliding-window attention and xLSTM linear RNN layers. A counter-intuitive finding with SWAX is that larger sliding windows do not improve the long-context performance. In fact, short window attention encourages the model to better train the long-term memory of the xLSTM, by relying less on the softmax attention mechanism for long context-retrieval. The issue with small sliding windows is that they are detrimental for short-context tasks, which could be solved with information from moderately larger sliding windows otherwise. Therefore, we train SWAX by stochastically changing the sliding window size, forcing the model to leverage both a longer context window and the xLSTM memory. SWAX trained with stochastic window sizes significantly outperforms regular window attention both on short and long-context problems.
- Abstract(参考訳): 近年の研究では、スライディングウインドウのソフトマックスアテンション層と線形リカレントニューラルネットワーク(RNN)層を結合したハイブリッドアーキテクチャが、これら2つのアーキテクチャを別々に比較した。
しかし,ウィンドウ長の影響とソフトマックスアテンションと線形RNN層との相互作用は未検討のままである。
本研究では,スライディングウインドウとxLSTM線形RNN層からなるハイブリッドアーキテクチャであるSWAXを紹介する。
SWAXの反直感的な発見は、大きなスライディングウィンドウが長いコンテキスト性能を向上しないことである。
実際、ショートウィンドウアテンションは、長いコンテキスト検索のソフトマックスアテンション機構に頼らずに、xLSTMの長期記憶をより良く訓練することをモデルに推奨する。
小さなスライディングウインドウの問題は、短いコンテキストタスクには有害であり、それ以外は、適度に大きなスライディングウインドウの情報で解決できる点である。
そこで,スライディングウィンドウサイズを統計的に変化させることでSWAXをトレーニングし,より長いコンテキストウインドウとxLSTMメモリの両方を活用することを強制する。
確率的ウィンドウサイズで訓練されたSWAXは、ショート・コンテクストの問題とロング・コンテクストの問題の両方において、通常のウインドウの注意を著しく上回っている。
関連論文リスト
- Lightweight Backbone Networks Only Require Adaptive Lightweight Self-Attention Mechanisms [3.1008025152646996]
本稿では,適応的な特徴マップサイズを持つ軽量なSoftMaxアテンション計算機構を提案する。
LOLViTは推論速度とモデル精度の両方で同一レベルのCNNモデルより優れていた。
論文 参考訳(メタデータ) (2025-08-02T14:28:57Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - MSWA: Refining Local Attention with Multi-ScaleWindow Attention [14.481768894355522]
スライディングウィンドウアテンション(SWA)は、固定サイズのローカルコンテキストウインドウにアテンション範囲を制限することでこの問題を解決する。
トランスフォーマーの頭と層に多様なウィンドウサイズを適用したマルチスケールウィンドウアテンション(MSWA)を提案する。
同じ層内のヘッド間で異なるウィンドウサイズを可能にするだけでなく、浅い層から深い層へのウィンドウサイズ割り当てを徐々に増加させ、モデルが異なる長さと距離でコンテキスト情報をキャプチャできるようにする。
論文 参考訳(メタデータ) (2025-01-02T03:41:32Z) - ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention [13.36619701679949]
ウィンドウベースのトランスフォーマーは、安価な注意計算でコンテキスト認識表現をキャプチャすることで、大規模クラウド理解において優れている。
既存のメソッドは、ウィンドウ内のボクセルを広範囲のソートとパディング操作を通じて固定長のシーケンスにグループ化する。
ScatterFormerは、異なるウィンドウにまたがるvoxelに直接、単一のシーケンスとして注意を向ける最初の方法です。
論文 参考訳(メタデータ) (2024-01-01T02:29:59Z) - MixFormer: Mixing Features across Windows and Dimensions [68.86393312123168]
ローカルウインドウの自己注意は視覚タスクにおいて顕著に機能するが、限定的な受容野と弱いモデリング能力の問題に悩まされている。
これは主に、オーバーラップされていないウィンドウ内で自己注意を行い、チャネル次元に重みを共有するためである。
局所窓の自己アテンションと深度ワイドの畳み込みを並列設計で組み合わせ, クロスウィンドウ接続をモデル化し, 受容場を拡大する。
論文 参考訳(メタデータ) (2022-04-06T03:13:50Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。