論文の概要: Attentive Convolution: Unifying the Expressivity of Self-Attention with Convolutional Efficiency
- arxiv url: http://arxiv.org/abs/2510.20092v1
- Date: Thu, 23 Oct 2025 00:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.026313
- Title: Attentive Convolution: Unifying the Expressivity of Self-Attention with Convolutional Efficiency
- Title(参考訳): 注意的畳み込み : 自己意識と畳み込み効率の両立
- Authors: Hao Yu, Haoyu Chen, Yan Jiang, Wei Peng, Zhaodong Sun, Samuel Kaski, Guoying Zhao,
- Abstract要約: 私たちはCNNの設計を再検討し、重要な質問に導かれました。
先行研究における長年のデザイン直観に挑戦する2つの基本的な洞察を明らかにする。
我々は、これらの原則を本質的に注入する畳み込み作用素の原則改革であるtextitAttentive Convolution (ATConv)を提案する。
- 参考スコア(独自算出の注目度): 47.83434266977187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention (SA) has become the cornerstone of modern vision backbones for its powerful expressivity over traditional Convolutions (Conv). However, its quadratic complexity remains a critical bottleneck for practical applications. Given that Conv offers linear complexity and strong visual priors, continuing efforts have been made to promote the renaissance of Conv. However, a persistent performance chasm remains, highlighting that these modernizations have not yet captured the intrinsic expressivity that defines SA. In this paper, we re-examine the design of the CNNs, directed by a key question: what principles give SA its edge over Conv? As a result, we reveal two fundamental insights that challenge the long-standing design intuitions in prior research (e.g., Receptive field). The two findings are: (1) \textit{Adaptive routing}: SA dynamically regulates positional information flow according to semantic content, whereas Conv employs static kernels uniformly across all positions. (2) \textit{Lateral inhibition}: SA induces score competition among token weighting, effectively suppressing redundancy and sharpening representations, whereas Conv filters lack such inhibitory dynamics and exhibit considerable redundancy. Based on this, we propose \textit{Attentive Convolution} (ATConv), a principled reformulation of the convolutional operator that intrinsically injects these principles. Interestingly, with only $3\times3$ kernels, ATConv consistently outperforms various SA mechanisms in fundamental vision tasks. Building on ATConv, we introduce AttNet, a CNN family that can attain \textbf{84.4\%} ImageNet-1K Top-1 accuracy with only 27M parameters. In diffusion-based image generation, replacing all SA with the proposed $3\times 3$ ATConv in SiT-XL/2 reduces ImageNet FID by 0.15 in 400k steps with faster sampling. Code is available at: github.com/price112/Attentive-Convolution.
- Abstract(参考訳): 自己注意(SA)は、従来のコンボリューション(Conv)よりも強力な表現力を持つ現代のビジョンバックボーンの基盤となっている。
しかし、その二次的な複雑さは、実用アプリケーションにとって重要なボトルネックである。
Convは線形複雑性と強力な視覚的先行性を提供するので、Convのルネッサンスを促進する努力が続けられている。
しかし、持続的なパフォーマンスのシャームは残っており、これらの近代化がSAを定義する本質的な表現性をまだ捉えていないことを強調している。
本稿では、CNNの設計を再検討し、重要な質問に導かれる。
その結果,先行研究における長年のデザイン直観に挑戦する2つの基本的な知見が明らかになった。
1) \textit{Adaptive routing}: SAはセマンティックコンテンツに応じて位置情報の流れを動的に制御するが、Convはすべての位置で静的カーネルを均一に使用している。
2) \textit{Lateral inhibition}: SAはトークン重み付けのスコア競争を誘導し、効果的に冗長性を抑え、表現を鋭くする一方、Convフィルタはそのような抑制的ダイナミクスを欠き、かなりの冗長性を示す。
そこで本研究では,これらの原理を内在的に注入する畳み込み作用素の原理的再構成である「textit{Attentive Convolution} (ATConv)」を提案する。
興味深いことに、ATConvはカーネルがわずか$3\times3$で、基本的なビジョンタスクにおいて様々なSAメカニズムを一貫して上回っている。
ATConv上に構築されたAttNetは、たった27Mパラメータでtextbf{84.4\%} ImageNet-1K Top-1精度を達成できるCNNファミリである。
拡散ベースの画像生成では、すべてのSAを提案された$3\times 3$ ATConv in SiT-XL/2に置き換えることで、イメージネットFIDを400kステップで0.15削減し、より高速なサンプリングを行う。
コードは、github.com/price112/Attentive-Convolutionで入手できる。
関連論文リスト
- ThinkingViT: Matryoshka Thinking Vision Transformer for Elastic Inference [0.41942958779358674]
ビジョントランスフォーマーは最先端のパフォーマンスを提供するが、その固定予算は異種ハードウェア間のスケーラブルなデプロイメントを妨げている。
インプットの難易度に基づいて推論を動的に調整するために,プログレッシブな思考段階を利用するネスト型ViTアーキテクチャであるThinkingViTを紹介する。
ThinkingViT は同じスループットでネストされたベースラインを最大2.0パーセンテージ(p.p.p.)、ImageNet-1Kで最大2.9パーセンテージで上回る。
論文 参考訳(メタデータ) (2025-07-14T20:54:41Z) - OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels [50.42092879252807]
We present OverLoCK, the first pure ConvNet backbone architecture which include a top-down attention mechanism。
トップダウンアテンションのパワーを完全に解き放つために,コンテクスト混合動的畳み込み(ContMix)を提案する。
論文 参考訳(メタデータ) (2025-02-27T13:45:15Z) - UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation [26.91063423376469]
半教師付きセマンティックセグメンテーション(SSS)は、安価な未ラベル画像から豊富な視覚知識を学習することを目的としている。
アップグレードされ、単純化されたUniMatch V2を示し、V1から弱い一貫性のコアスピリットを継承する。
論文 参考訳(メタデータ) (2024-10-14T17:49:27Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - SD-Conv: Towards the Parameter-Efficiency of Dynamic Convolution [16.56592303409295]
動的畳み込みは、無視可能なFLOPの増加による効率の良いCNNの性能向上を実現する。
我々はこれら2つのパスを自然に統合する新しいフレームワーク textbfSparse Dynamic Convolution (textscSD-Conv) を提案する。
論文 参考訳(メタデータ) (2022-04-05T14:03:54Z) - TVConv: Efficient Translation Variant Convolution for Layout-aware
Visual Processing [10.996162201540695]
レイアウト認識型視覚処理のための効率的な翻訳変種畳み込み(TVConv)を開発した。
TVConvは畳み込みの効率を大幅に改善し、様々なネットワークアーキテクチャに簡単に接続できる。
論文 参考訳(メタデータ) (2022-03-20T08:29:06Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。