論文の概要: EVCC: Enhanced Vision Transformer-ConvNeXt-CoAtNet Fusion for Classification
- arxiv url: http://arxiv.org/abs/2511.18691v1
- Date: Mon, 24 Nov 2025 02:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.974717
- Title: EVCC: Enhanced Vision Transformer-ConvNeXt-CoAtNet Fusion for Classification
- Title(参考訳): EVCC:Vision Transformer-ConvNeXt-CoAtNet Fusion for Classification
- Authors: Kazi Reyazul Hasan, Md Nafiu Rahman, Wasif Jalal, Sadif Ahmed, Shahriar Raj, Mubasshira Musarrat, Muhammad Abdullah Adnan,
- Abstract要約: トランスフォーマーとCNNを組み合わせたハイブリッド視覚アーキテクチャは画像分類が大幅に進歩しているが、通常は計算コストがかなり高い。
本稿では、Vision Transformer、軽量ConvNeXt、CoAtNetを統合した新しいマルチブランチアーキテクチャであるEVCCを紹介する。
CIFAR-100、Tobacco3482、CelebA、Brain Cancerデータセットにわたる実験は、EVCCが強力なモデルよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 0.5394291557377919
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hybrid vision architectures combining Transformers and CNNs have significantly advanced image classification, but they usually do so at significant computational cost. We introduce EVCC (Enhanced Vision Transformer-ConvNeXt-CoAtNet), a novel multi-branch architecture integrating the Vision Transformer, lightweight ConvNeXt, and CoAtNet through key innovations: (1) adaptive token pruning with information preservation, (2) gated bidirectional cross-attention for enhanced feature refinement, (3) auxiliary classification heads for multi-task learning, and (4) a dynamic router gate employing context-aware confidence-driven weighting. Experiments across the CIFAR-100, Tobacco3482, CelebA, and Brain Cancer datasets demonstrate EVCC's superiority over powerful models like DeiT-Base, MaxViT-Base, and CrossViT-Base by consistently achieving state-of-the-art accuracy with improvements of up to 2 percentage points, while reducing FLOPs by 25 to 35%. Our adaptive architecture adjusts computational demands to deployment needs by dynamically reducing token count, efficiently balancing the accuracy-efficiency trade-off while combining global context, local details, and hierarchical features for real-world applications. The source code of our implementation is available at https://anonymous.4open.science/r/EVCC.
- Abstract(参考訳): トランスフォーマーとCNNを組み合わせたハイブリッド視覚アーキテクチャは画像分類が大幅に進歩しているが、通常は計算コストがかなり高い。
EVCC (Enhanced Vision Transformer-ConvNeXt-CoAtNet) は,視覚変換器,軽量コンブNeXt,CoAtNetを統合した新しいマルチブランチアーキテクチャであり,(1)情報保存による適応トークンプルーニング,(2)機能強化のためのゲート双方向クロスアテンション,(3)マルチタスク学習のための補助的分類ヘッド,(4)コンテキスト認識の信頼性駆動重み付けを利用した動的ルータゲートである。
CIFAR-100、Tobacco3482、CelebA、Brain Cancerデータセットにわたる実験は、EVCCがDeiT-Base、MaxViT-Base、CrossViT-Baseといった強力なモデルよりも優れていることを示した。
適応アーキテクチャは,グローバルなコンテキスト,ローカルな詳細,階層的な特徴を実世界のアプリケーションに組み合わせつつ,トークン数を動的に削減し,精度と効率のトレードオフを効率的にバランスさせることによって,デプロイメントニーズに対する計算要求を調整する。
実装のソースコードはhttps://anonymous.4open.science/r/EVCCで公開されています。
関連論文リスト
- FTCFormer: Fuzzy Token Clustering Transformer for Image Classification [22.410199372985584]
トランスフォーマーベースのディープニューラルネットワークは、様々なコンピュータビジョンタスクで顕著な成功を収めている。
ほとんどのトランスフォーマーアーキテクチャは、イメージを均一なグリッドベースの視覚トークンに埋め込み、画像領域の基本的な意味を無視する。
本研究では,空間的位置ではなく意味に基づく視覚トークンを動的に生成するFuzzy Token Clustering Transformer (FTCFormer)を提案する。
論文 参考訳(メタデータ) (2025-07-14T13:49:47Z) - S2AFormer: Strip Self-Attention for Efficient Vision Transformer [37.930090368513355]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな進歩を遂げた。
最近の手法は、より良いトレードオフを達成するために、畳み込みの強みと自己意識を組み合わせる。
SSA(Strip Self-Attention)を特徴とする効率的な視覚変換器アーキテクチャであるS2AFormerを提案する。
論文 参考訳(メタデータ) (2025-05-28T10:17:23Z) - ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition [63.93802691275012]
グローバル・ローカル・ダイナミクスを同時に学習するための軽量なデュアル・ダイナミック・トケン・ミキサー(D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1K分類では、TransXNet-TはSwin-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - A Data-scalable Transformer for Medical Image Segmentation:
Architecture, Model Efficiency, and Benchmark [45.543140413399506]
MedFormerは、一般化可能な3次元医用画像セグメンテーションのために設計されたデータスケーリング可能なトランスフォーマーである。
提案手法には, 望ましい帰納バイアス, 線形複雑度を考慮した階層的モデリング, マルチスケール特徴融合の3つの要素が組み込まれている。
論文 参考訳(メタデータ) (2022-02-28T22:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。