論文の概要: Hierarchical Shift Mixing -- Beyond Dense Attention in Transformers
- arxiv url: http://arxiv.org/abs/2601.22852v1
- Date: Fri, 30 Jan 2026 11:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.404783
- Title: Hierarchical Shift Mixing -- Beyond Dense Attention in Transformers
- Title(参考訳): 階層的なシフト混合 - トランスフォーマーの暗黙の注意を超えて
- Authors: Robert Forchheimer,
- Abstract要約: 我々は、Transformer層にまたがる相互トークンの相互作用を分散するトークンミキシングフレームワークであるHSMを紹介する。
HSMは特定の混合関数に留まりながら線形時間複雑性を可能にする。
単純なHSMの変種であっても,ソフトマックスの注目度に近い性能が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the introduction of the Transformer architecture for large language models, the softmax-based attention layer has faced increasing scrutinity due to its quadratic-time computational complexity. Attempts have been made to replace it with less complex methods, at the cost of reduced performance in most cases. We introduce Hierarchical Shift Mixing (HSM), a general framework for token mixing that distributes pairwise token interactions across Transformer layers rather than computing them densely within each layer. HSM enables linear-time complexity while remaining agnostic to the specific mixing function. We show that even simple HSM variants achieve performance close to softmax attention, and that hybrid architectures combining HSM with softmax attention can outperform a GPT-style Transformer baseline while reducing computational cost during both training and inference.
- Abstract(参考訳): 大規模言語モデルのためのTransformerアーキテクチャの導入以来、ソフトマックスベースのアテンション層は2次時間計算の複雑さのため、より精査される傾向にある。
ほとんどの場合、パフォーマンスの低下を犠牲にして、より複雑な方法で置き換える試みがなされている。
階層シフト混合(Hierarchical Shift Mixing, HSM)はトークン混合の一般的なフレームワークであり、各層内で密に計算するのではなく、トランスフォーマー層にまたがる相互トークンの相互作用を分散する。
HSMは特定の混合関数に依存しないまま、線形時間複雑性を可能にする。
我々は,単純なHSMの変種であってもソフトマックスの注目に近づき,HSMとソフトマックスの注意を併用したハイブリッドアーキテクチャは,トレーニングと推論の双方において計算コストを削減しつつ,GPTスタイルのトランスフォーマーベースラインより優れていることを示す。
関連論文リスト
- Sparse Multi-Modal Transformer with Masking for Alzheimer's Disease Classification [1.9336815376402718]
トランスフォーマーベースのマルチモーダルインテリジェントシステムは、密集した自己注意による高い計算とエネルギーコストに悩まされることが多い。
本稿では,効率とロバスト性の向上を目的としたスパースマルチモーダルトランスアーキテクチャSMMTを提案する。
論文 参考訳(メタデータ) (2025-12-16T15:24:57Z) - Fast attention mechanisms: a tale of parallelism [52.7657529272906]
準四分法的時間複雑性を有する近似近傍注意(ANNA)という,効率的な注意機構を導入する。
我々は,ANNA変換器が従来確立されていた表現力を維持し,MPCアルゴリズムの能力に適合することを示す。
論文 参考訳(メタデータ) (2025-09-10T20:59:44Z) - Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - Hierarchical Separable Video Transformer for Snapshot Compressive Imaging [46.23615648331571]
HiSViT(Hierarchical Separable Video Transformer)は、時間的アグリゲーションのない再構成アーキテクチャである。
HiSViTは、CSS-MSAとGSM-FFN(Gated Self-Modulated Feed-Forward Network)の複数グループによって構築されている。
我々のメソッドは、同等または少ないパラメータと複雑さで、以前のメソッドを$!>!0.5$で上回ります。
論文 参考訳(メタデータ) (2024-07-16T17:35:59Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。