論文の概要: Spectral-Window Hybrid (SWH)
- arxiv url: http://arxiv.org/abs/2601.01313v1
- Date: Sun, 04 Jan 2026 00:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.220771
- Title: Spectral-Window Hybrid (SWH)
- Title(参考訳): スペクトル・ウィンドウハイブリッド(SWH)
- Authors: Vladimer Khasia,
- Abstract要約: 極端な文脈へのシーケンスモデリングのスケーリングには、計算効率と表現表現率のバランスが必要である。
シーケンスモデリングを2つのテキスト並列ストリームに分離するアーキテクチャである textbfSpectral-Window Hybrid (SWH) を提案する。
SWHは、拡張シーケンスに対する効率的な線形スケーリングを実現しつつ、短いコンテキストで標準変換器のパープレキシティと一致することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling sequence modeling to extreme contexts requires balancing computational efficiency with representational expressivity. While Transformers provide precise retrieval via the attention mechanism, their quadratic $\mathcal{O}(T^2)$ complexity limits their application to long-horizon tasks. In this work, we propose the \textbf{Spectral-Window Hybrid (SWH)}, an architecture that decouples sequence modeling into two \textit{parallel} streams: a global branch utilizing the Convolution Theorem to model long-range decay dynamics in $\mathcal{O}(T \log T)$ time, and a local branch employing sliding-window attention for token interactions within a bounded context. By aggregating these representations, SWH avoids the computational bottleneck of global attention while retaining local precision. We demonstrate that SWH matches the perplexity of standard Transformers on short contexts while enabling efficient linear scaling to extended sequences. The code is available at https://github.com/VladimerKhasia/SWH
- Abstract(参考訳): 極端な文脈へのシーケンスモデリングのスケーリングには、計算効率と表現表現率のバランスが必要である。
Transformerはアテンション機構を介して正確な検索を行うが、その2次 $\mathcal{O}(T^2)$ 複雑さは長期タスクに制限される。
そこで本研究では,2つの<textit{parallel} ストリームにシーケンスモデリングを分離するアーキテクチャである \textbf{Spectral-Window Hybrid (SWH) を提案する。
これらの表現を集約することにより、SWHは局所的精度を維持しながら、グローバルな注目の計算的ボトルネックを避けることができる。
SWHは、拡張シーケンスに対する効率的な線形スケーリングを実現しつつ、短いコンテキストで標準変換器のパープレキシティと一致することを示した。
コードはhttps://github.com/VladimerKhasia/SWHで公開されている。
関連論文リスト
- Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - Fast attention mechanisms: a tale of parallelism [52.7657529272906]
準四分法的時間複雑性を有する近似近傍注意(ANNA)という,効率的な注意機構を導入する。
我々は,ANNA変換器が従来確立されていた表現力を維持し,MPCアルゴリズムの能力に適合することを示す。
論文 参考訳(メタデータ) (2025-09-10T20:59:44Z) - SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。
SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文 参考訳(メタデータ) (2025-08-31T17:08:33Z) - Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - PiT: Progressive Diffusion Transformer [50.46345527963736]
拡散変換器(DiT)は変換器アーキテクチャを用いて画像生成において顕著な性能を発揮する。
DiTは以前信じられていたようなグローバルな情報に大きく依存していない。
Pseudo Progressive Diffusion Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2025-05-19T15:02:33Z) - Exact Sequence Interpolation with Transformers [0.0]
変換器は, 有限入力列のデータセットを$mathbbRd$, $dgeq 2$で正確に補間できることを示す。
具体的には、$mathbbRd$の任意の長さの$N$シーケンスと$m1, dots, mN in MathcalN$の出力シーケンスを与えられた場合、$mathcalO(sum_j=1N mj)$ブロックと$で変換器を構築する。
論文 参考訳(メタデータ) (2025-02-04T12:31:00Z) - HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full
Context Interaction [0.0]
自己注意機構は、ドット製品ベースのアクティベーションを通じてプログラムされた大きな暗黙の重み行列を利用して、訓練可能なパラメータがほとんどないため、長いシーケンスモデリングを可能にする。
本稿では,ネットワークの各層におけるコンテキストの完全な相互作用を実現するために,大きな暗黙のカーネルを用いて残差学習を破棄する可能性について検討する。
このモデルにはいくつかの革新的なコンポーネントが組み込まれており、遅いネットワークを更新するための局所的なフィードバックエラー、安定なゼロ平均機能、より高速なトレーニング収束、より少ないモデルパラメータなど、優れた特性を示している。
論文 参考訳(メタデータ) (2024-01-31T15:57:21Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。