論文の概要: On the Power of Convolution Augmented Transformer
- arxiv url: http://arxiv.org/abs/2407.05591v1
- Date: Mon, 8 Jul 2024 04:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:10:02.877711
- Title: On the Power of Convolution Augmented Transformer
- Title(参考訳): 畳み込み強化変圧器のパワーについて
- Authors: Mingchen Li, Xuechen Zhang, Yixiao Huang, Samet Oymak,
- Abstract要約: 本稿では,CAT(Convolution-Augmented Transformer)によるリコール,コピー,長さ一般化タスクの利点について検討する。
Catは、注目層のK/Q/V埋め込みに畳み込みフィルタを組み込む。
コンボリューションの局所性は、注目のグローバルな見方と相乗効果を示す。
- 参考スコア(独自算出の注目度): 30.46405043231576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer architecture has catalyzed revolutionary advances in language modeling. However, recent architectural recipes, such as state-space models, have bridged the performance gap. Motivated by this, we examine the benefits of Convolution-Augmented Transformer (CAT) for recall, copying, and length generalization tasks. CAT incorporates convolutional filters in the K/Q/V embeddings of an attention layer. Through CAT, we show that the locality of the convolution synergizes with the global view of the attention. Unlike comparable architectures, such as Mamba or transformer, CAT can provably solve the associative recall (AR) and copying tasks using a single layer while also enjoying guaranteed length generalization. We also establish computational tradeoffs between convolution and attention by characterizing how convolution can mitigate the need for full attention by summarizing the context window and creating salient summary tokens to attend. Evaluations on real datasets corroborate our findings and demonstrate that CAT and its variations indeed enhance the language modeling performance.
- Abstract(参考訳): トランスフォーマーアーキテクチャは言語モデリングの革命的な進歩を触媒している。
しかし、ステートスペースモデルのような最近のアーキテクチャのレシピは、パフォーマンスのギャップを埋めている。
そこで我々は,CAT(Convolution-Augmented Transformer)によるリコール,コピー,長さ一般化タスクの利点について検討した。
CATは、注目層のK/Q/V埋め込みに畳み込みフィルタを組み込む。
CATを通して、コンボリューションの局所性は、注目のグローバルな見方と相乗効果を示す。
MambaやTransformerのような同等のアーキテクチャとは異なり、CATは、保証された長さの一般化を享受しながら、単一のレイヤを使用して、連想リコール(AR)とタスクのコピーを確実に解決することができる。
また、コンボリューションは、コンボリューションウィンドウを要約し、出席する有意義な要約トークンを作成することにより、コンボリューションが完全な注意を緩和できるかどうかを特徴付けることで、コンボリューションとアトラクションの間の計算上のトレードオフを確立する。
実際のデータセットによる評価は、我々の発見を裏付け、CATとその変異が言語モデリング性能を高めることを実証する。
関連論文リスト
- Zebra: Extending Context Window with Layerwise Grouped Local-Global
Attention [44.67973028541842]
本稿では,広範囲なテキストシーケンスの処理と理解において,LLM(Large Language Models)の能力を高めるための新しいアプローチを提案する。
本稿では,Zebraと呼ばれる新しいモデルアーキテクチャを提案する。
我々のモデルは、ゼブラの交互ストライプに似ているが、局所的およびグローバルな注意層をバランスさせ、計算要求とメモリ消費を大幅に削減する。
論文 参考訳(メタデータ) (2023-12-14T02:45:31Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Cross Aggregation Transformer for Image Restoration [48.390140041131886]
近年,畳み込みニューラルネットワーク(CNN)に代えて,画像復元にトランスフォーマーアーキテクチャが導入されている。
上記の問題に対処するため,新しい画像復元モデルであるCross Aggregation Transformer (CAT)を提案する。
我々のCATの中核はRectangle-Window Self-Attention (Rwin-SA)であり、これは異なる頭部における水平および垂直の矩形窓の注意を平行に利用し、注意領域を広げ、異なる窓を横断する特徴を集約する。
さらに,CNNの帰納バイアス(例えば翻訳における帰納的バイアス)を組み込んだ自己注意機構を補完するLocality Complementary Moduleを提案する。
論文 参考訳(メタデータ) (2022-11-24T15:09:33Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。