論文の概要: CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers
- arxiv url: http://arxiv.org/abs/2504.06704v1
- Date: Wed, 09 Apr 2025 09:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 20:24:15.880095
- Title: CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers
- Title(参考訳): CAT: 変圧器の循環制御
- Authors: Yoshihiro Yamada,
- Abstract要約: 本稿では,CAT(Circular-convolutional Attention)を導入し,表現力を犠牲にすることなく複雑性を低減する。
CATはO(NlogN)計算を実現し、完全に接続されたレイヤを合理化することで学習可能なパラメータを少なくする。
CATの設計はエンジニアリングの同型フレームワークに基づいており、実用的効率と実装の容易さを提供する。
- 参考スコア(独自算出の注目度): 0.3626013617212666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have driven remarkable breakthroughs in natural language processing and computer vision, yet their standard attention mechanism still imposes O(N^2) complexity, hindering scalability to longer sequences. We introduce Circular-convolutional ATtention (CAT), a Fourier-based approach that efficiently applies circular convolutions to reduce complexity without sacrificing representational power. CAT achieves O(NlogN) computations, requires fewer learnable parameters by streamlining fully-connected layers, and introduces no heavier operations, resulting in consistent accuracy improvements and about a 10% speedup in naive PyTorch implementations on large-scale benchmarks such as ImageNet-1k and WikiText-103. Grounded in an engineering-isomorphism framework, CAT's design not only offers practical efficiency and ease of implementation but also provides insights to guide the development of next-generation, high-performance Transformer architectures. Finally, our ablation studies highlight the key conditions underlying CAT's success, shedding light on broader principles for scalable attention mechanisms.
- Abstract(参考訳): トランスフォーマーは自然言語処理やコンピュータビジョンにおいて画期的なブレークスルーを導いてきたが、その標準的な注意機構はO(N^2)の複雑さを課し、長いシーケンスのスケーラビリティを妨げている。
本稿では,CAT(Circular-convolutional Attention)を提案する。
CATはO(NlogN)計算を達成し、完全に接続されたレイヤを合理化することで学習可能なパラメータを少なくし、より重い操作を導入し、一貫した精度の改善とImageNet-1kやWikiText-103のような大規模ベンチマークでのPyTorch実装の10%の高速化を実現している。
エンジニアリングの同型フレームワークを基盤として、CATの設計は実用的な効率性と実装の容易さを提供するだけでなく、次世代の高性能トランスフォーマーアーキテクチャの開発をガイドするための洞察も提供する。
最後に、当社のアブレーション研究は、CATの成功の根底にある重要な条件を強調し、拡張性のあるアテンションメカニズムのより広範な原則に光を当てています。
関連論文リスト
- BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation [30.912818564963512]
DETRISは、低ランクな視覚的特徴伝達を強化するために設計されたパラメータ効率のチューニングフレームワークである。
我々の単純で効率的なアプローチは、最先端のメソッドを大きく上回り、0.9%から1.8%のバックボーンパラメーターが更新される。
論文 参考訳(メタデータ) (2025-01-15T05:00:03Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - On the Power of Convolution Augmented Transformer [30.46405043231576]
本稿では,CAT(Convolution-Augmented Transformer)によるリコール,コピー,長さ一般化タスクの利点について検討する。
Catは、注目層のK/Q/V埋め込みに畳み込みフィルタを組み込む。
コンボリューションの局所性は、注目のグローバルな見方と相乗効果を示す。
論文 参考訳(メタデータ) (2024-07-08T04:08:35Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Laughing Hyena Distillery: Extracting Compact Recurrences From
Convolutions [101.08706223326928]
近年のアテンションフリーシーケンスモデルの発展は、トランスフォーマーのコアにあるアテンション演算子の代替として、畳み込みに依存している。
本稿では,事前学習した長大な畳み込みアーキテクチャにおいて,トークン当たりの計算コストとメモリコストを$mathcal O(1)$にすることを提案する。
論文 参考訳(メタデータ) (2023-10-28T18:40:03Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - CATs++: Boosting Cost Aggregation with Convolutions and Transformers [31.22435282922934]
本稿では,変換器を用いたコストアグリゲーション(CAT)を導入し,初期相関マップ間のグローバルコンセンサスを探索する。
また、標準変圧器の使用による計算コストの増大など、CATが直面する可能性のあるいくつかの制約を緩和するため、CATs++を提案する。
提案手法は従来の最先端手法を大きなマージンで上回り、全てのベンチマークに対して新しい最先端手法を設定できる。
論文 参考訳(メタデータ) (2022-02-14T15:54:58Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。