論文の概要: EVCC: Enhanced Vision Transformer-ConvNeXt-CoAtNet Fusion for Classification
- arxiv url: http://arxiv.org/abs/2511.18691v1
- Date: Mon, 24 Nov 2025 02:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.974717
- Title: EVCC: Enhanced Vision Transformer-ConvNeXt-CoAtNet Fusion for Classification
- Title(参考訳): EVCC:Vision Transformer-ConvNeXt-CoAtNet Fusion for Classification
- Authors: Kazi Reyazul Hasan, Md Nafiu Rahman, Wasif Jalal, Sadif Ahmed, Shahriar Raj, Mubasshira Musarrat, Muhammad Abdullah Adnan,
- Abstract要約: トランスフォーマーとCNNを組み合わせたハイブリッド視覚アーキテクチャは画像分類が大幅に進歩しているが、通常は計算コストがかなり高い。
本稿では、Vision Transformer、軽量ConvNeXt、CoAtNetを統合した新しいマルチブランチアーキテクチャであるEVCCを紹介する。
CIFAR-100、Tobacco3482、CelebA、Brain Cancerデータセットにわたる実験は、EVCCが強力なモデルよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 0.5394291557377919
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hybrid vision architectures combining Transformers and CNNs have significantly advanced image classification, but they usually do so at significant computational cost. We introduce EVCC (Enhanced Vision Transformer-ConvNeXt-CoAtNet), a novel multi-branch architecture integrating the Vision Transformer, lightweight ConvNeXt, and CoAtNet through key innovations: (1) adaptive token pruning with information preservation, (2) gated bidirectional cross-attention for enhanced feature refinement, (3) auxiliary classification heads for multi-task learning, and (4) a dynamic router gate employing context-aware confidence-driven weighting. Experiments across the CIFAR-100, Tobacco3482, CelebA, and Brain Cancer datasets demonstrate EVCC's superiority over powerful models like DeiT-Base, MaxViT-Base, and CrossViT-Base by consistently achieving state-of-the-art accuracy with improvements of up to 2 percentage points, while reducing FLOPs by 25 to 35%. Our adaptive architecture adjusts computational demands to deployment needs by dynamically reducing token count, efficiently balancing the accuracy-efficiency trade-off while combining global context, local details, and hierarchical features for real-world applications. The source code of our implementation is available at https://anonymous.4open.science/r/EVCC.
- Abstract(参考訳): トランスフォーマーとCNNを組み合わせたハイブリッド視覚アーキテクチャは画像分類が大幅に進歩しているが、通常は計算コストがかなり高い。
EVCC (Enhanced Vision Transformer-ConvNeXt-CoAtNet) は,視覚変換器,軽量コンブNeXt,CoAtNetを統合した新しいマルチブランチアーキテクチャであり,(1)情報保存による適応トークンプルーニング,(2)機能強化のためのゲート双方向クロスアテンション,(3)マルチタスク学習のための補助的分類ヘッド,(4)コンテキスト認識の信頼性駆動重み付けを利用した動的ルータゲートである。
CIFAR-100、Tobacco3482、CelebA、Brain Cancerデータセットにわたる実験は、EVCCがDeiT-Base、MaxViT-Base、CrossViT-Baseといった強力なモデルよりも優れていることを示した。
適応アーキテクチャは,グローバルなコンテキスト,ローカルな詳細,階層的な特徴を実世界のアプリケーションに組み合わせつつ,トークン数を動的に削減し,精度と効率のトレードオフを効率的にバランスさせることによって,デプロイメントニーズに対する計算要求を調整する。
実装のソースコードはhttps://anonymous.4open.science/r/EVCCで公開されています。
関連論文リスト
- SpaRTAN: Spatial Reinforcement Token-based Aggregation Network for Visual Recognition [15.125734989910429]
SpaRTANは、空間的およびチャネル的な情報処理を強化する軽量なアーキテクチャ設計である。
SpaRTANは、競争性能を維持しながら、顕著な効率を達成する。
論文 参考訳(メタデータ) (2025-07-15T05:34:56Z) - FTCFormer: Fuzzy Token Clustering Transformer for Image Classification [22.410199372985584]
トランスフォーマーベースのディープニューラルネットワークは、様々なコンピュータビジョンタスクで顕著な成功を収めている。
ほとんどのトランスフォーマーアーキテクチャは、イメージを均一なグリッドベースの視覚トークンに埋め込み、画像領域の基本的な意味を無視する。
本研究では,空間的位置ではなく意味に基づく視覚トークンを動的に生成するFuzzy Token Clustering Transformer (FTCFormer)を提案する。
論文 参考訳(メタデータ) (2025-07-14T13:49:47Z) - S2AFormer: Strip Self-Attention for Efficient Vision Transformer [37.930090368513355]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな進歩を遂げた。
最近の手法は、より良いトレードオフを達成するために、畳み込みの強みと自己意識を組み合わせる。
SSA(Strip Self-Attention)を特徴とする効率的な視覚変換器アーキテクチャであるS2AFormerを提案する。
論文 参考訳(メタデータ) (2025-05-28T10:17:23Z) - ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - AdaptoVision: A Multi-Resolution Image Recognition Model for Robust and Scalable Classification [0.0]
AdaptoVisionは、計算複雑性と分類精度を効率的にバランスさせるように設計された、新しい畳み込みニューラルネットワーク(CNN)アーキテクチャである。
強化された残余単位、深さ的に分離可能な畳み込み、階層的なスキップ接続を利用することで、AdaptoVisionはパラメータ数と計算要求を大幅に削減する。
CIFAR-10では95.3%、CIFAR-100では85.77%であり、事前訓練された重量に依存しない。
論文 参考訳(メタデータ) (2025-04-17T05:23:07Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition [63.93802691275012]
グローバル・ローカル・ダイナミクスを同時に学習するための軽量なデュアル・ダイナミック・トケン・ミキサー(D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1K分類では、TransXNet-TはSwin-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - A Data-scalable Transformer for Medical Image Segmentation:
Architecture, Model Efficiency, and Benchmark [45.543140413399506]
MedFormerは、一般化可能な3次元医用画像セグメンテーションのために設計されたデータスケーリング可能なトランスフォーマーである。
提案手法には, 望ましい帰納バイアス, 線形複雑度を考慮した階層的モデリング, マルチスケール特徴融合の3つの要素が組み込まれている。
論文 参考訳(メタデータ) (2022-02-28T22:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。