論文の概要: Partial Convolution Meets Visual Attention
- arxiv url: http://arxiv.org/abs/2503.03148v1
- Date: Wed, 05 Mar 2025 03:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:27.502429
- Title: Partial Convolution Meets Visual Attention
- Title(参考訳): 部分的な畳み込みと視覚的注意
- Authors: Haiduo Huang, Fuwei Yang, Dong Li, Ji Liu, Lu Tian, Jinzhang Peng, Pengju Ren, Emad Barsoum,
- Abstract要約: FasterNetは部分的な畳み込みを導入しようとするが、未使用のチャネルによって精度が低下する。
本稿では,PConvと視覚的注意を効果的に組み合わせられる新しい部分視覚アテンション機構(PAT)を提案する。
PATをベースとした新しいハイブリッドネットワークファミリーであるPATNetを提案し,高いトップ1精度と推論速度を実現する。
- 参考スコア(独自算出の注目度): 16.646684431676665
- License:
- Abstract: Designing an efficient and effective neural network has remained a prominent topic in computer vision research. Depthwise onvolution (DWConv) is widely used in efficient CNNs or ViTs, but it needs frequent memory access during inference, which leads to low throughput. FasterNet attempts to introduce partial convolution (PConv) as an alternative to DWConv but compromises the accuracy due to underutilized channels. To remedy this shortcoming and consider the redundancy between feature map channels, we introduce a novel Partial visual ATtention mechanism (PAT) that can efficiently combine PConv with visual attention. Our exploration indicates that the partial attention mechanism can completely replace the full attention mechanism and reduce model parameters and FLOPs. Our PAT can derive three types of blocks: Partial Channel-Attention block (PAT_ch), Partial Spatial-Attention block (PAT_sp) and Partial Self-Attention block (PAT_sf). First, PAT_ch integrates the enhanced Gaussian channel attention mechanism to infuse global distribution information into the untouched channels of PConv. Second, we introduce the spatial-wise attention to the MLP layer to further improve model accuracy. Finally, we replace PAT_ch in the last stage with the self-attention mechanism to extend the global receptive field. Building upon PAT, we propose a novel hybrid network family, named PATNet, which achieves superior top-1 accuracy and inference speed compared to FasterNet on ImageNet-1K classification and excel in both detection and segmentation on the COCO dataset. Particularly, our PATNet-T2 achieves 1.3% higher accuracy than FasterNet-T2, while exhibiting 25% higher GPU throughput and 24% lower CPU latency.
- Abstract(参考訳): 効率的で効果的なニューラルネットワークを設計することは、コンピュータビジョン研究において重要なトピックであり続けている。
Depthwise Onvolution (DWConv) は効率的なCNNやViTで広く使われているが、推論中に頻繁にメモリアクセスが必要であるため、スループットが低下する。
FasterNetはDWConvの代替として部分的畳み込み(PConv)を導入しようとしているが、未使用のチャネルによって精度が損なわれる。
そこで本稿では,PConvと視覚的注意を効果的に組み合わせた新しい部分的視覚的注意機構(PAT)を提案する。
調査の結果,部分的注意機構が完全な注意機構に取って代わり,モデルパラメータやFLOPを削減できることが示唆された。
PATは,部分チャネルアテンションブロック(PAT_ch),部分空間アテンションブロック(PAT_sp),部分自己アテンションブロック(PAT_sf)の3種類のブロックを導出できる。
まず、PAT_chは拡張されたガウスチャネルアテンション機構を統合し、グローバル分布情報をPConvの未タッチチャネルに注入する。
第2に、モデル精度をさらに向上するために、空間的注意をMLP層に導入する。
最後に,最終段階におけるPAT_chを,世界受容場を拡張する自己認識機構に置き換える。
PATに基づく新しいハイブリッドネットワークファミリーであるPATNetを提案する。これはImageNet-1K分類におけるFasterNetよりも優れたトップ1精度と推論速度を実現し,COCOデータセットにおける検出とセグメンテーションの両面で優れる。
特に、当社のPATNet-T2は、FasterNet-T2よりも1.3%高い精度で、GPUスループットが25%高く、CPUレイテンシが24%低い。
関連論文リスト
- Partial Channel Network: Compute Fewer, Perform Better [6.666628122653455]
特徴写像チャネル内の冗長性を利用するための新しい部分チャネル機構(PCM)を提案する。
視覚的注意を効果的に組み合わせられる新しい部分的注意畳み込み(PATConv)を導入する。
PATConv と DPConv をベースとして,ParialNet という新たなハイブリッドネットワークファミリを提案する。
論文 参考訳(メタデータ) (2025-02-03T12:26:55Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Dual Path Transformer with Partition Attention [26.718318398951933]
本稿では,2重注意という,効率的かつ効果的に機能する新しい注意機構を提案する。
我々は,イメージネットのイメージ分類,COCOのオブジェクト検出,都市景観のセマンティックセグメンテーションなど,複数のコンピュータビジョンタスクにおけるモデルの有効性を評価する。
提案されたDualFormer-XSは、ImageNet上で81.5%のTop-1精度を達成し、最近の最先端のT-XSを0.6%上回り、スループットが大幅に向上した。
論文 参考訳(メタデータ) (2023-05-24T06:17:53Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - An efficient encoder-decoder architecture with top-down attention for
speech separation [25.092542427133704]
バイオインスパイアされた効率的なエンコーダデコーダアーキテクチャは、TDANetと呼ばれる脳のトップダウンの注意を模倣することで実現している。
3つのベンチマークデータセットにおいて、TDANetは従来型のSOTA(State-of-the-art)メソッドと競合する分離性能を一貫して達成した。
論文 参考訳(メタデータ) (2022-09-30T03:09:53Z) - Channel-wise Gated Res2Net: Towards Robust Detection of Synthetic Speech
Attacks [67.7648985513978]
自動話者検証(ASV)における既存のアンチスプーフィングのアプローチは、未確認攻撃に対する一般化性に欠ける。
本稿では,チャネルワイズゲーティング機構を実現するためにRes2Netを改良した新しいCG-Res2Netを提案する。
論文 参考訳(メタデータ) (2021-07-19T12:27:40Z) - CT-Net: Channel Tensorization Network for Video Classification [48.4482794950675]
3D畳み込みはビデオ分類には強力だが、しばしば計算コストがかかる。
ほとんどのアプローチは、畳み込み効率と機能的相互作用の十分性の間の好適なバランスを達成できない。
簡潔で斬新なチャネルネットワーク(CT-Net)を提案する。
我々のCT-Netは、精度および/または効率の点で、最近のSOTAアプローチよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T05:35:43Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z) - ULSAM: Ultra-Lightweight Subspace Attention Module for Compact
Convolutional Neural Networks [4.143032261649983]
Ultra-Lightweight Subspace Attention Mechanism(ULSAM)は、エンドツーエンドのトレーニングが可能で、コンパクト畳み込みニューラルネットワーク(CNN)のプラグアンドプレイモジュールとしてデプロイできる。
FLOPとパラメータカウントの両方において$approx$13%と$approx$25%の削減を実現し、ImageNet-1Kおよびきめ細かい画像分類データセット上で、0.27%以上の精度と1%以上の精度で、MobileNet-V2のFLOPとパラメータカウントを削減した。
論文 参考訳(メタデータ) (2020-06-26T17:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。