論文の概要: Interpreting and Improving Attention From the Perspective of Large Kernel Convolution
- arxiv url: http://arxiv.org/abs/2401.05738v3
- Date: Mon, 02 Dec 2024 00:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:23:06.825205
- Title: Interpreting and Improving Attention From the Perspective of Large Kernel Convolution
- Title(参考訳): 大カーネル・コンボリューションの観点からの注意の解釈と改善
- Authors: Chenghao Li, Chaoning Zhang, Boheng Zeng, Yi Lu, Pengbo Shi, Qingzi Chen, Jirui Liu, Lingyun Zhu, Yang Yang, Heng Tao Shen,
- Abstract要約: 本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
- 参考スコア(独自算出の注目度): 51.06461246235176
- License:
- Abstract: Attention mechanisms have significantly advanced visual models by capturing global context effectively. However, their reliance on large-scale datasets and substantial computational resources poses challenges in data-scarce and resource-constrained scenarios. Moreover, traditional self-attention mechanisms lack inherent spatial inductive biases, making them suboptimal for modeling local features critical to tasks involving smaller datasets. In this work, we introduce Large Kernel Convolutional Attention (LKCA), a novel formulation that reinterprets attention operations as a single large-kernel convolution. This design unifies the strengths of convolutional architectures locality and translation invariance with the global context modeling capabilities of self-attention. By embedding these properties into a computationally efficient framework, LKCA addresses key limitations of traditional attention mechanisms. The proposed LKCA achieves competitive performance across various visual tasks, particularly in data-constrained settings. Experimental results on CIFAR-10, CIFAR-100, SVHN, and Tiny-ImageNet demonstrate its ability to excel in image classification, outperforming conventional attention mechanisms and vision transformers in compact model settings. These findings highlight the effectiveness of LKCA in bridging local and global feature modeling, offering a practical and robust solution for real-world applications with limited data and resources.
- Abstract(参考訳): 注意機構は、グローバルコンテキストを効果的にキャプチャすることで、かなり高度な視覚モデルを持つ。
しかし、大規模なデータセットや相当量の計算資源への依存は、データスカースやリソース制約のあるシナリオに課題をもたらす。
さらに、従来の自己注意機構には固有の空間的帰納バイアスがなく、より小さなデータセットを含むタスクに不可欠な局所的特徴をモデル化するのに最適である。
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
この設計は、畳み込みアーキテクチャの局所性と翻訳不変性の強さを、自己意識のグローバルなコンテキストモデリング能力と統合する。
これらの特性を計算的に効率的なフレームワークに組み込むことで、LKCAは従来の注意機構の重要な制限に対処する。
提案したLKCAは、特にデータ制約設定において、様々な視覚的タスク間での競合性能を実現する。
CIFAR-10, CIFAR-100, SVHN, Tiny-ImageNetによる実験結果から, コンパクトモデル設定における画像分類, 従来の注意機構, 視覚変換器よりも優れることを示す。
これらの結果は、ローカルおよびグローバルな特徴モデリングのブリッジングにおけるLKCAの有効性を強調し、限られたデータとリソースを持つ実世界のアプリケーションに対して実用的で堅牢なソリューションを提供する。
関連論文リスト
- Context Matters: Query-aware Dynamic Long Sequence Modeling of Gigapixel Images [4.3565203412433195]
ワイルスライド画像 (WSI) 解析は, ギガピクセル画像のパッチ数が膨大であるため, 計算上の課題が顕著である。
本稿では,クエリ対応の長期コンテキスト動的モデリングフレームワークであるQuerentを提案する。
提案手法は, 微粒なパッチ相関をモデル化するためのグローバルな認識を保ちながら, 計算オーバーヘッドを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-31T09:29:21Z) - Context-CrackNet: A Context-Aware Framework for Precise Segmentation of Tiny Cracks in Pavement images [3.9599054392856483]
本研究では、RFEM(Rerea-Focused Enhancement Module)とCAGM(Context-Aware Global Module)を備えた新しいエンコーダデコーダアーキテクチャであるContext-CrackNetを提案する。
このモデルは9つの最先端セグメンテーションフレームワークを一貫して上回り、mIoUやDiceスコアといった優れたパフォーマンス指標を達成した。
このモデルの精度と計算効率のバランスは、大規模舗装監視システムにおけるリアルタイム展開の可能性を強調している。
論文 参考訳(メタデータ) (2025-01-24T11:28:17Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Local-Global Attention: An Adaptive Mechanism for Multi-Scale Feature Integration [0.9790236766474198]
Local-Global Attentionは、ローカルとグローバルの両方のコンテキスト機能を統合するように設計されている。
我々は、広く使われているオブジェクト検出および分類データセットのローカル・グローバル・アテンション機構を徹底的に評価した。
論文 参考訳(メタデータ) (2024-11-14T17:22:16Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。