論文の概要: CoSwin: Convolution Enhanced Hierarchical Shifted Window Attention For Small-Scale Vision
- arxiv url: http://arxiv.org/abs/2509.08959v1
- Date: Wed, 10 Sep 2025 19:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.124605
- Title: CoSwin: Convolution Enhanced Hierarchical Shifted Window Attention For Small-Scale Vision
- Title(参考訳): CoSwin:小型ビジョンのための階層的シフトウィンドウアテンションを改良したコンボリューション
- Authors: Puskal Khadka, Rodrigue Rizk, Longwei Wang, KC Santosh,
- Abstract要約: CoSwinは、階層的なシフトウインドウの注意を局所的な畳み込み機能学習で強化する、新しい機能融合アーキテクチャである。
CIFAR-10, CIFAR-100, MNIST, SVHN, Tiny ImageNetなどの画像分類ベンチマークを用いてCoSwinの評価を行った。
- 参考スコア(独自算出の注目度): 2.558238597112103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved impressive results in computer vision by leveraging self-attention to model long-range dependencies. However, their emphasis on global context often comes at the expense of local feature extraction in small datasets, particularly due to the lack of key inductive biases such as locality and translation equivariance. To mitigate this, we propose CoSwin, a novel feature-fusion architecture that augments the hierarchical shifted window attention with localized convolutional feature learning. Specifically, CoSwin integrates a learnable local feature enhancement module into each attention block, enabling the model to simultaneously capture fine-grained spatial details and global semantic structure. We evaluate CoSwin on multiple image classification benchmarks including CIFAR-10, CIFAR-100, MNIST, SVHN, and Tiny ImageNet. Our experimental results show consistent performance gains over state-of-the-art convolutional and transformer-based models. Notably, CoSwin achieves improvements of 2.17% on CIFAR-10, 4.92% on CIFAR-100, 0.10% on MNIST, 0.26% on SVHN, and 4.47% on Tiny ImageNet over the baseline Swin Transformer. These improvements underscore the effectiveness of local-global feature fusion in enhancing the generalization and robustness of transformers for small-scale vision. Code and pretrained weights available at https://github.com/puskal-khadka/coswin
- Abstract(参考訳): ビジョントランスフォーマー (ViT) は、長距離依存のモデル化に自己アテンションを活用することで、コンピュータビジョンにおいて印象的な成果を上げている。
しかし、グローバルな文脈に重点を置いているのは、特に局所性や翻訳等価性のような重要な帰納的バイアスが欠如していることから、小さなデータセットにおける局所的特徴抽出を犠牲にすることが多い。
これを緩和するために、我々はCoSwinを提案する。CoSwinは、階層的なシフトウインドウの注意を局所的な畳み込み特徴学習で強化する新しい特徴融合アーキテクチャである。
特に、CoSwinは学習可能なローカル機能拡張モジュールを各アテンションブロックに統合し、モデルが細粒度空間の詳細とグローバルセマンティック構造を同時に取得できるようにする。
CIFAR-10, CIFAR-100, MNIST, SVHN, Tiny ImageNetなどの画像分類ベンチマークを用いてCoSwinの評価を行った。
実験結果から,最先端の畳み込みモデルと変圧器モデルに比較して,一貫した性能向上が得られた。
特に、CIFAR-10は2.17%、CIFAR-100は4.92%、MNISTは0.10%、SVHNは0.26%、Tiny ImageNetは4.47%である。
これらの改良は,小型視覚用変圧器の一般化とロバスト性向上における局所的特徴融合の有効性を裏付けるものである。
Code and Pretrained weights available at https://github.com/puskal-khadka/coswin
関連論文リスト
- Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [11.95214938154427]
Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-28T04:23:40Z) - ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - Lightweight Vision Transformer with Bidirectional Interaction [59.39874544410419]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers [29.09883780571206]
We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-03-08T09:25:17Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。