論文の概要: Interpreting and Improving Attention From the Perspective of Large Kernel Convolution
- arxiv url: http://arxiv.org/abs/2401.05738v3
- Date: Mon, 02 Dec 2024 00:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 21:01:15.416238
- Title: Interpreting and Improving Attention From the Perspective of Large Kernel Convolution
- Title(参考訳): 大カーネル・コンボリューションの観点からの注意の解釈と改善
- Authors: Chenghao Li, Chaoning Zhang, Boheng Zeng, Yi Lu, Pengbo Shi, Qingzi Chen, Jirui Liu, Lingyun Zhu, Yang Yang, Heng Tao Shen,
- Abstract要約: 本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
- 参考スコア(独自算出の注目度): 51.06461246235176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention mechanisms have significantly advanced visual models by capturing global context effectively. However, their reliance on large-scale datasets and substantial computational resources poses challenges in data-scarce and resource-constrained scenarios. Moreover, traditional self-attention mechanisms lack inherent spatial inductive biases, making them suboptimal for modeling local features critical to tasks involving smaller datasets. In this work, we introduce Large Kernel Convolutional Attention (LKCA), a novel formulation that reinterprets attention operations as a single large-kernel convolution. This design unifies the strengths of convolutional architectures locality and translation invariance with the global context modeling capabilities of self-attention. By embedding these properties into a computationally efficient framework, LKCA addresses key limitations of traditional attention mechanisms. The proposed LKCA achieves competitive performance across various visual tasks, particularly in data-constrained settings. Experimental results on CIFAR-10, CIFAR-100, SVHN, and Tiny-ImageNet demonstrate its ability to excel in image classification, outperforming conventional attention mechanisms and vision transformers in compact model settings. These findings highlight the effectiveness of LKCA in bridging local and global feature modeling, offering a practical and robust solution for real-world applications with limited data and resources.
- Abstract(参考訳): 注意機構は、グローバルコンテキストを効果的にキャプチャすることで、かなり高度な視覚モデルを持つ。
しかし、大規模なデータセットや相当量の計算資源への依存は、データスカースやリソース制約のあるシナリオに課題をもたらす。
さらに、従来の自己注意機構には固有の空間的帰納バイアスがなく、より小さなデータセットを含むタスクに不可欠な局所的特徴をモデル化するのに最適である。
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
この設計は、畳み込みアーキテクチャの局所性と翻訳不変性の強さを、自己意識のグローバルなコンテキストモデリング能力と統合する。
これらの特性を計算的に効率的なフレームワークに組み込むことで、LKCAは従来の注意機構の重要な制限に対処する。
提案したLKCAは、特にデータ制約設定において、様々な視覚的タスク間での競合性能を実現する。
CIFAR-10, CIFAR-100, SVHN, Tiny-ImageNetによる実験結果から, コンパクトモデル設定における画像分類, 従来の注意機構, 視覚変換器よりも優れることを示す。
これらの結果は、ローカルおよびグローバルな特徴モデリングのブリッジングにおけるLKCAの有効性を強調し、限られたデータとリソースを持つ実世界のアプリケーションに対して実用的で堅牢なソリューションを提供する。
関連論文リスト
- Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」
この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文 参考訳(メタデータ) (2025-04-28T08:12:30Z) - LSNet: See Large, Focus Small [67.05569159984691]
我々は,大カーネル認識と小カーネル集約を組み合わせたLS(textbfLarge-textbfSmall)畳み込みを導入する。
LSNetは、様々な視覚タスクにおいて、既存の軽量ネットワークよりも優れた性能と効率を実現する。
論文 参考訳(メタデータ) (2025-03-29T16:00:54Z) - C2D-ISR: Optimizing Attention-based Image Super-resolution from Continuous to Discrete Scales [6.700548615812325]
我々は、注目に基づく画像超解像モデルの最適化のための新しいフレームワーク、textbfC2D-ISRを提案する。
このアプローチは、2段階のトレーニング手法と階層的なエンコーディング機構に基づいている。
さらに,既存のアテンションベースネットワーク構造を用いて階層符号化機構を一般化する。
論文 参考訳(メタデータ) (2025-03-17T21:52:18Z) - Context Matters: Query-aware Dynamic Long Sequence Modeling of Gigapixel Images [4.3565203412433195]
ワイルスライド画像 (WSI) 解析は, ギガピクセル画像のパッチ数が膨大であるため, 計算上の課題が顕著である。
本稿では,クエリ対応の長期コンテキスト動的モデリングフレームワークであるQuerentを提案する。
提案手法は, 微粒なパッチ相関をモデル化するためのグローバルな認識を保ちながら, 計算オーバーヘッドを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-31T09:29:21Z) - Context-CrackNet: A Context-Aware Framework for Precise Segmentation of Tiny Cracks in Pavement images [3.9599054392856483]
本研究では、RFEM(Rerea-Focused Enhancement Module)とCAGM(Context-Aware Global Module)を備えた新しいエンコーダデコーダアーキテクチャであるContext-CrackNetを提案する。
このモデルは9つの最先端セグメンテーションフレームワークを一貫して上回り、mIoUやDiceスコアといった優れたパフォーマンス指標を達成した。
このモデルの精度と計算効率のバランスは、大規模舗装監視システムにおけるリアルタイム展開の可能性を強調している。
論文 参考訳(メタデータ) (2025-01-24T11:28:17Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - On the Power of Convolution Augmented Transformer [30.46405043231576]
本稿では,CAT(Convolution-Augmented Transformer)によるリコール,コピー,長さ一般化タスクの利点について検討する。
Catは、注目層のK/Q/V埋め込みに畳み込みフィルタを組み込む。
コンボリューションの局所性は、注目のグローバルな見方と相乗効果を示す。
論文 参考訳(メタデータ) (2024-07-08T04:08:35Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Rethinking Local Perception in Lightweight Vision Transformer [63.65115590184169]
本稿では,コンテキスト認識型局所拡張を利用した軽量な視覚変換器であるCloFormerを紹介する。
CloFormer氏は、バニラ畳み込み演算子でよく使用されるグローバル共有ウェイトと、注目されているトークン固有のコンテキスト認識ウェイトとの関係について検討している。
提案したAttnConvでは、共有ウェイトを使用してローカル情報を集約し、ローカル機能を強化するために慎重に設計されたコンテキスト対応ウェイトをデプロイする。
論文 参考訳(メタデータ) (2023-03-31T05:25:32Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - HorNet: Efficient High-Order Spatial Interactions with Recursive Gated
Convolutions [109.33112814212129]
本稿では,畳み込みに基づくフレームワークを用いて,入力適応型,長距離,高次空間相互作用を効率的に実装可能であることを示す。
本稿では、ゲート畳み込みと高次空間相互作用を行うRecursive Gated Convolution(textitgtextitn$Conv)を提案する。
この操作に基づいて,HorNetという汎用視覚バックボーンを新たに構築する。
論文 参考訳(メタデータ) (2022-07-28T17:59:02Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z) - Adaptive Attention Span in Computer Vision [5.371337604556311]
言語モデリングのためのトランスフォーマーの最近の進歩は、コンピュータビジョンにおける新しい研究領域を開拓した。
2019年後半に行われた研究では、コンボリューションをローカルな自己認識カーネルに置き換えた場合、オブジェクトの検出と認識の両方のパフォーマンスが大幅に向上した。
ローカルな自己アテンションカーネルを用いたモデルは、畳み込みのみを使用する等価アーキテクチャと比較してパラメータやFLOPSが少ないことも示されている。
論文 参考訳(メタデータ) (2020-04-18T21:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。