論文の概要: Sliding Window Recurrences for Sequence Models
- arxiv url: http://arxiv.org/abs/2512.13921v1
- Date: Mon, 15 Dec 2025 21:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.509221
- Title: Sliding Window Recurrences for Sequence Models
- Title(参考訳): Sliding Window Recurrences for Sequence Models (特集:情報ネットワーク)
- Authors: Dragos Secrieru, Garyk Brixi, Yoshua Bengio, Taiji Suzuki, Michael Poli, Stefano Massaroli,
- Abstract要約: 線形リカレンスのための階層分解フレームワークを導入し,GPUメモリ階層に整合したアルゴリズムを開発できるようにする。
我々は、ハードウェア対応のウィンドウへの繰り返しをトラッピングすることに特化しており、これは自然にジャグリングされ、ワープ間通信のコストを抑えている。
我々は,窓面の注意や線形再発の代替となるPhalanx層を開発した。
- 参考スコア(独自算出の注目度): 85.49118834785435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-hybrid architectures are poised to take over language modeling due to better quality and performance. We introduce a hierarchical decomposition framework for linear recurrences that allows us to develop algorithms aligned with GPU memory hierarchies, yielding Sliding Window Recurrences. We focus specifically on truncating recurrences to hardware-aligned windows which are naturally jagged, limiting costly inter-warp communication. Using SWR, we develop Phalanx layers that serve as drop-in replacements for windowed attention or linear recurrences. In 1B parameter multi-hybrid models, Phalanx achieves over 10-40% speedup across 4K to 32K context length over optimized Transformers while matching perplexity.
- Abstract(参考訳): マルチハイブリッドアーキテクチャは、より良い品質と性能のために、言語モデリングを引き継ぐことができる。
線形リカレンスのための階層分解フレームワークを導入し、GPUメモリの階層に整合したアルゴリズムを開発できるようにし、スライディングウインドウ・リカレンスを生成する。
我々は、ハードウェア対応のウィンドウへの繰り返しをトラッピングすることに特化しており、これは自然にジャグリングされ、ワープ間通信のコストを抑えている。
SWRを用いて,窓面の注意や線形再発の代替となるPhalanx層を開発した。
1Bパラメータのマルチハイブリッドモデルでは、Phalanxは4Kから32Kのコンテキスト長で10-40%以上のスピードアップを達成する。
関連論文リスト
- Sliding Window Attention for Learned Video Compression [67.57073402826292]
本研究は3D Sliding Window Attention (SWA)を導入している。
Bjorntegaard Delta-rate saves to up 18.6% %。
論文 参考訳(メタデータ) (2025-10-04T20:11:43Z) - Lizard: An Efficient Linearization Framework for Large Language Models [113.87302474262798]
プリトレーニングされたトランスフォーマーベース大規模言語モデル(LLM)をサブクワッドアーキテクチャに変換する線形化フレームワークであるLizardを提案する。
Lizardは、モデル品質を保ちながらソフトマックスアテンションを正確に近似するサブクワッドアテンションメカニズムを導入することで、これらの制限に対処する。
5 ショット MMLU ベンチマークにおいて,Lizard は教師モデルの性能のほぼ無作為な回復を実現し,従来の手法よりも 9.4 ~ 24.5 ポイント高い性能を示した。
論文 参考訳(メタデータ) (2025-07-11T21:19:18Z) - Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation [20.117825519637357]
並列生成が可能な新しい生成モデルであるMultiverseを導入する。
次に,データ,アルゴリズム,システムの共設計キュレーションを用いた実世界のマルチバース推論モデルを構築した。
データ作成のために,自動LLM支援パイプラインであるMultiverse Curatorを開発した。
また、並列推論をサポートするために、Multiverse Engineを実装しています。
論文 参考訳(メタデータ) (2025-06-11T17:59:23Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention [13.36619701679949]
ウィンドウベースのトランスフォーマーは、安価な注意計算でコンテキスト認識表現をキャプチャすることで、大規模クラウド理解において優れている。
既存のメソッドは、ウィンドウ内のボクセルを広範囲のソートとパディング操作を通じて固定長のシーケンスにグループ化する。
ScatterFormerは、異なるウィンドウにまたがるvoxelに直接、単一のシーケンスとして注意を向ける最初の方法です。
論文 参考訳(メタデータ) (2024-01-01T02:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。