論文の概要: LKCA: Large Kernel Convolutional Attention
- arxiv url: http://arxiv.org/abs/2401.05738v1
- Date: Thu, 11 Jan 2024 08:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:38:59.840573
- Title: LKCA: Large Kernel Convolutional Attention
- Title(参考訳): LKCA: 大きなカーネルの進化的注意
- Authors: Chenghao Li, Boheng Zeng, Yi Lu, Pengbo Shi, Qingzi Chen, Jirui Liu,
Lingyun Zhu
- Abstract要約: 我々はLKCA(Large Kernel Convolutional Attention)という空間的注意を提案する。
LKCAは畳み込みニューラルネットワークとビジュアルトランスフォーマーの利点を組み合わせている。
コンボリューションとアテンションの両方の観点から実装されたLKCAが同等の性能を示すことが実験によって確認された。
- 参考スコア(独自算出の注目度): 3.896121436301882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the relationship between attention mechanisms and large kernel
ConvNets in visual transformers and propose a new spatial attention named Large
Kernel Convolutional Attention (LKCA). It simplifies the attention operation by
replacing it with a single large kernel convolution. LKCA combines the
advantages of convolutional neural networks and visual transformers, possessing
a large receptive field, locality, and parameter sharing. We explained the
superiority of LKCA from both convolution and attention perspectives, providing
equivalent code implementations for each view. Experiments confirm that LKCA
implemented from both the convolutional and attention perspectives exhibit
equivalent performance. We extensively experimented with the LKCA variant of
ViT in both classification and segmentation tasks. The experiments demonstrated
that LKCA exhibits competitive performance in visual tasks. Our code will be
made publicly available at https://github.com/CatworldLee/LKCA.
- Abstract(参考訳): 視覚変換器における注意機構と大カーネルConvNetの関係を再検討し,LKCA(Large Kernel Convolutional Attention)という空間的注意を提案する。
単一の大きなカーネル畳み込みに置き換えることで、注意操作を単純化する。
LKCAは畳み込みニューラルネットワークとビジュアルトランスフォーマーの利点を組み合わせて、大きな受容野、局所性、パラメータ共有を持つ。
我々は、畳み込みと注意の両方の観点からlkcaの優位性を説明し、各ビューに同等のコード実装を提供した。
コンボリューションとアテンションの両方の観点から実装されたLKCAは同等の性能を示した。
分類タスクとセグメンテーションタスクの両方において, LKCA の ViT 変異体を広範囲に実験した。
実験により,LKCAは視覚タスクにおいて競争性能を示すことが示された。
私たちのコードはhttps://github.com/CatworldLee/LKCAで公開されます。
関連論文リスト
- Context Matters: Query-aware Dynamic Long Sequence Modeling of Gigapixel Images [4.3565203412433195]
ワイルスライド画像 (WSI) 解析は, ギガピクセル画像のパッチ数が膨大であるため, 計算上の課題が顕著である。
本稿では,クエリ対応の長期コンテキスト動的モデリングフレームワークであるQuerentを提案する。
提案手法は, 微粒なパッチ相関をモデル化するためのグローバルな認識を保ちながら, 計算オーバーヘッドを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-31T09:29:21Z) - Context-CrackNet: A Context-Aware Framework for Precise Segmentation of Tiny Cracks in Pavement images [3.9599054392856483]
本研究では、RFEM(Rerea-Focused Enhancement Module)とCAGM(Context-Aware Global Module)を備えた新しいエンコーダデコーダアーキテクチャであるContext-CrackNetを提案する。
このモデルは9つの最先端セグメンテーションフレームワークを一貫して上回り、mIoUやDiceスコアといった優れたパフォーマンス指標を達成した。
このモデルの精度と計算効率のバランスは、大規模舗装監視システムにおけるリアルタイム展開の可能性を強調している。
論文 参考訳(メタデータ) (2025-01-24T11:28:17Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Local-Global Attention: An Adaptive Mechanism for Multi-Scale Feature Integration [0.9790236766474198]
Local-Global Attentionは、ローカルとグローバルの両方のコンテキスト機能を統合するように設計されている。
我々は、広く使われているオブジェクト検出および分類データセットのローカル・グローバル・アテンション機構を徹底的に評価した。
論文 参考訳(メタデータ) (2024-11-14T17:22:16Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。