論文の概要: The End of Transformers? On Challenging Attention and the Rise of Sub-Quadratic Architectures
- arxiv url: http://arxiv.org/abs/2510.05364v1
- Date: Mon, 06 Oct 2025 20:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.977715
- Title: The End of Transformers? On Challenging Attention and the Rise of Sub-Quadratic Architectures
- Title(参考訳): 変圧器の終焉 : 混在する留意点とサブクアドラティックアーキテクチャの台頭について
- Authors: Alexander M. Fichtl, Jeremias Bohn, Josefin Kelber, Edoardo Mosca, Georg Groh,
- Abstract要約: トランスフォーマーは過去7年間、シーケンス処理タスクを支配してきた。
本稿では、このボトルネックを克服するための取り組みとして、(サブクワッドラティックな)注意変動、リカレントニューラルネットワーク、状態空間モデル、ハイブリッドアーキテクチャの進歩について調査する。
計算とメモリの複雑さ、ベンチマーク結果、および基本的制約の観点からこれらのアプローチを批判的に分析し、純粋アテンショントランスフォーマーの優位性がすぐに問題になるかどうかを評価する。
- 参考スコア(独自算出の注目度): 40.645763624486705
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers have dominated sequence processing tasks for the past seven years -- most notably language modeling. However, the inherent quadratic complexity of their attention mechanism remains a significant bottleneck as context length increases. This paper surveys recent efforts to overcome this bottleneck, including advances in (sub-quadratic) attention variants, recurrent neural networks, state space models, and hybrid architectures. We critically analyze these approaches in terms of compute and memory complexity, benchmark results, and fundamental limitations to assess whether the dominance of pure-attention transformers may soon be challenged.
- Abstract(参考訳): トランスフォーマーは、過去7年間、シーケンス処理タスクを支配してきた。
しかし、それらの注意機構の本質的に二次的な複雑さは、文脈の長さが増加するにつれて大きなボトルネックとなる。
本稿では、このボトルネックを克服するための最近の取り組みについて、(サブクワッドラティックな)注意変動、リカレントニューラルネットワーク、状態空間モデル、ハイブリッドアーキテクチャなどについて調査する。
計算とメモリの複雑さ、ベンチマーク結果、および基本的制約の観点からこれらのアプローチを批判的に分析し、純粋アテンショントランスフォーマーの優位性がすぐに問題になるかどうかを評価する。
関連論文リスト
- Don't Pay Attention [0.552480439325792]
Aveyは新しい神経基盤アーキテクチャで、注意と再発の両方から切り離されている。
Aveyは、コンテキスト幅からシーケンスの長さを分離することで、任意に長いシーケンスの効率的な処理を可能にする。
その結果、Avey は様々な標準短距離 NLP ベンチマークで Transformer と比較した。
論文 参考訳(メタデータ) (2025-06-12T21:11:06Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Mega: Moving Average Equipped Gated Attention [150.3124713793503]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。
我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-21T20:52:17Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。