論文の概要: A Lightweight Convolution and Vision Transformer integrated model with Multi-scale Self-attention Mechanism
- arxiv url: http://arxiv.org/abs/2508.16884v2
- Date: Thu, 11 Sep 2025 14:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 13:52:32.816113
- Title: A Lightweight Convolution and Vision Transformer integrated model with Multi-scale Self-attention Mechanism
- Title(参考訳): マルチスケール自己認識機構を備えた軽量畳み込み・視覚変換器統合モデル
- Authors: Yi Zhang, Lingxiao Wei, Bowei Zhang, Ziwei Liu, Kai Yi, Shu Hu,
- Abstract要約: Vision Transformer (ViT) は、長距離依存モデリング能力の強いコンピュータビジョンタスクで普及している。
本稿では,細かな注意(SAEViTと呼ばれる)と畳み込みブロックを持つ効率的なViTモデルを提案する。
主流データセットの実験では、SAEViTはImageNet-1K分類タスクで76.3%と79.6%のTop-1アキュラシーを達成した。
- 参考スコア(独自算出の注目度): 41.02402160100821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has prevailed in computer vision tasks due to its strong long-range dependency modelling ability. \textcolor{blue}{However, its large model size and weak local feature modeling ability hinder its application in real scenarios. To balance computation efficiency and performance in downstream vision tasks, we propose an efficient ViT model with sparse attention (dubbed SAEViT) and convolution blocks. Specifically, a Sparsely Aggregated Attention (SAA) module has been proposed to perform adaptive sparse sampling and recover the feature map via deconvolution operation,} which significantly reduces the computational complexity of attention operations. In addition, a Channel-Interactive Feed-Forward Network (CIFFN) layer is developed to enhance inter-channel information exchange through feature decomposition and redistribution, which mitigates the redundancy in traditional feed-forward networks (FFN). Finally, a hierarchical pyramid structure with embedded depth-wise separable convolutional blocks (DWSConv) is devised to further strengthen convolutional features. Extensive experiments on mainstream datasets show that SAEViT achieves Top-1 accuracies of 76.3\% and 79.6\% on the ImageNet-1K classification task with only 0.8 GFLOPs and 1.3 GFLOPs, respectively, demonstrating a lightweight solution for fundamental vision tasks.
- Abstract(参考訳): Vision Transformer (ViT) は、長距離依存モデリング能力の強いコンピュータビジョンタスクで普及している。
しかし、その大きなモデルサイズと弱いローカル機能モデリング能力は、実際のシナリオでそのアプリケーションを妨げます。
下流視覚タスクにおける計算効率と性能のバランスをとるために、疎注意(SAEViTと呼ばれる)と畳み込みブロックを用いた効率的なViTモデルを提案する。
Sparsely Aggregated Attention (SAA) モジュールは適応的なスパースサンプリングを行い、デコンボリューション操作により特徴マップを復元する。
さらに、従来のフィードフォワードネットワーク(FFN)における冗長性を緩和する機能分解と再分配を通じて、チャネル間情報交換を強化するために、チャネル-対話型フィードフォワードネットワーク(CIFFN)層を開発した。
最後に,DWSConv(Deep-wise Separable Convolutional Block)を組み込んだ階層型ピラミッド構造を考案し,畳み込み特性をさらに強化した。
主流データセットに関する大規模な実験により、SAEViTはImageNet-1K分類タスクにおいて、それぞれ0.8 GFLOPsと1.3 GFLOPsしか持たない76.3\%と79.6\%のTop-1の精度を達成した。
関連論文リスト
- MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture [12.168520751389622]
ハイパースペクトル画像(HSI)分類は、高次元データ、限られたトレーニングサンプル、スペクトル冗長性といった課題に直面している。
本稿では,3D-CNNの局所特徴抽出,Transformerのグローバルモデリング,Mambaの線形シーケンスモデリング機能を統合した新しいMVNetネットワークアーキテクチャを提案する。
IN、UP、KSCデータセットでは、MVNetは分類精度と計算効率の両方で主流のハイパースペクトル画像分類法より優れている。
論文 参考訳(メタデータ) (2025-07-06T14:52:26Z) - ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation [5.326302374594885]
前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は複雑なシナリオでしばしば失敗する。
LSR-ST(Ladder Shape-bias Representation Side-tuning)を提案する。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution [6.857919231112562]
ウィンドウベーストランスは超高解像度タスクにおいて優れた性能を示した。
畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。
線形適応ミキサーネットワーク(LAMNet)という,畳み込みに基づくトランスフォーマーフレームワークを構築する。
論文 参考訳(メタデータ) (2024-09-26T07:24:09Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.5497663232622965]
iANETは、長距離依存のモデリングを改善するために設計された、効率的なハイブリッド視覚バックボーンである。
iiANETの中核となる革新は、iiABlockである。これは、グローバルなr-MHSA(Multi-Head Self-Attention)とパリルルにおける畳み込みレイヤを内部で記述する、統一されたビルディングブロックである。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。