Fugu-MT 論文翻訳(概要): CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction

論文の概要: CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction

arxiv url: http://arxiv.org/abs/2410.11428v1
Date: Tue, 15 Oct 2024 09:27:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.708127
Title: CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction
Title（参考訳）: CTA-Net:マルチスケール特徴抽出のためのCNN変換器集約ネットワーク
Authors: Chunlei Meng, Jiacheng Yang, Wei Lin, Bowen Liu, Hongda Zhang, chun ouyang, Zhongxue Gan,
Abstract要約: CTA-NetはCNNとViTを組み合わせて、長距離依存関係をキャプチャするトランスフォーマーと、ローカライズされた特徴を抽出するCNNを備えている。この統合により、詳細なローカルおよびより広いコンテキスト情報の効率的な処理が可能になる。 10万以上のサンプルを持つ小規模データセットの実験は、CTA-Netが優れたパフォーマンスを実現していることを示している。
参考スコア（独自算出の注目度）: 14.377544481394013
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Convolutional neural networks (CNNs) and vision transformers (ViTs) have become essential in computer vision for local and global feature extraction. However, aggregating these architectures in existing methods often results in inefficiencies. To address this, the CNN-Transformer Aggregation Network (CTA-Net) was developed. CTA-Net combines CNNs and ViTs, with transformers capturing long-range dependencies and CNNs extracting localized features. This integration enables efficient processing of detailed local and broader contextual information. CTA-Net introduces the Light Weight Multi-Scale Feature Fusion Multi-Head Self-Attention (LMF-MHSA) module for effective multi-scale feature integration with reduced parameters. Additionally, the Reverse Reconstruction CNN-Variants (RRCV) module enhances the embedding of CNNs within the transformer architecture. Extensive experiments on small-scale datasets with fewer than 100,000 samples show that CTA-Net achieves superior performance (TOP-1 Acc 86.76\%), fewer parameters (20.32M), and greater efficiency (FLOPs 2.83B), making it a highly efficient and lightweight solution for visual tasks on small-scale datasets (fewer than 100,000).
Abstract（参考訳）: 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、局所的およびグローバルな特徴抽出においてコンピュータビジョンにおいて欠かせないものとなっている。しかし、これらのアーキテクチャを既存の方法で集約すると、しばしば非効率になる。そこでCNN-Transformer Aggregation Network (CTA-Net)を開発した。 CTA-NetはCNNとViTを組み合わせて、長距離依存関係をキャプチャするトランスフォーマーと、ローカライズされた特徴を抽出するCNNを備えている。この統合により、詳細なローカルおよびより広いコンテキスト情報の効率的な処理が可能になる。 CTA-Netは、パラメータの削減による効果的なマルチスケール機能統合を実現するために、Light Weight Multi-Scale Feature Fusion Multi-Head Self-Attention (LMF-MHSA)モジュールを導入した。さらに、Reverse Reconstruction CNN-Variants (RRCV)モジュールはトランスフォーマーアーキテクチャへのCNNの埋め込みを強化する。 10万点未満のサンプルを持つ小規模データセットに対する大規模な実験は、CTA-Netが優れたパフォーマンス(TOP-1 Acc 86.76\%)、少ないパラメータ(20.32M)、より大きな効率(FLOPs 2.83B)を達成していることを示している。

関連論文リスト

ECMNet:Lightweight Semantic Segmentation with Efficient CNN-Mamba Network [0.0]
ECMNetはCNNとMambaをカプセルベースのフレームワークで巧みに組み合わせて、補完的な弱点に対処する。提案されたモデルは精度と効率のバランスに優れており、Cityscapesでは70.6% mIoU、CamVidテストデータセットでは73.6% mIoUを達成している。
論文参考訳（メタデータ） (2025-06-10T09:44:23Z)
MSCViT: A Small-size ViT architecture with Multi-Scale Self-Attention Mechanism for Tiny Datasets [3.8601741392210434]
Vision Transformer (ViT) は、長距離依存をモデル化する強力な能力のため、様々な視覚タスクにおいて有意義な可能性を証明している。本稿では,マルチスケールの自己認識機構とコンボリューションブロックを備えた小型ViTアーキテクチャを提案する。 CIFAR-100では14.0Mパラメータと2.5GFLOPで84.68%の精度を達成し、大規模なデータセットで事前トレーニングを行わない。
論文参考訳（メタデータ） (2025-01-10T15:18:05Z)
Efficient Semantic Segmentation via Lightweight Multiple-Information Interaction Network [37.84039482457571]
LMIINetと呼ばれるリアルタイムセマンティックセグメンテーションのための軽量な多重情報インタラクションネットワークを提案する。 CNNとTransformerを効果的に組み合わせ、冗長な計算とメモリフットプリントを削減する。 0.72Mパラメータと11.74G FLOPsで、LMIINetはシティスケープのテストセットで100 FPSで72.0% mIoU、CamVidデータセットで160 FPSで69.94% mIoUを達成した。
論文参考訳（メタデータ） (2024-10-03T05:45:24Z)
HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。 HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文参考訳（メタデータ） (2024-07-10T07:53:24Z)
ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。また,ELGC-Net-LWも導入した。
論文参考訳（メタデータ） (2024-03-26T17:46:25Z)
OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文参考訳（メタデータ） (2024-03-21T14:06:38Z)
Multiscale Low-Frequency Memory Network for Improved Feature Extraction in Convolutional Neural Networks [13.815116154370834]
本稿では,Multiscale Low-Frequency Memory (MLFM) Networkを提案する。 MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。我々の研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
論文参考訳（メタデータ） (2024-03-13T00:48:41Z)
Lightweight Real-time Semantic Segmentation Network with Efficient Transformer and CNN [34.020978009518245]
LETNetと呼ばれる軽量なリアルタイムセマンティックセグメンテーションネットワークを提案する。 LETNetは、U字型のCNNとTransformerをカプセル埋め込みスタイルで効果的に組み合わせ、それぞれの欠陥を補う。挑戦的なデータセットで実施された実験は、LETNetが精度と効率のバランスにおいて優れたパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2023-02-21T07:16:53Z)
MCTNet: A Multi-Scale CNN-Transformer Network for Change Detection in Optical Remote Sensing Images [7.764449276074902]
MCTNetと呼ばれるマルチスケールCNN変換器構造に基づくハイブリッドネットワークを提案する。 MCTNetは既存の最先端CD法よりも優れた検出性能が得られることを示す。
論文参考訳（メタデータ） (2022-10-14T07:54:28Z)
Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-10-12T06:54:39Z)
Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。 VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文参考訳（メタデータ） (2022-03-20T02:59:51Z)
Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文参考訳（メタデータ） (2022-03-15T06:52:25Z)
Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文参考訳（メタデータ） (2021-06-02T18:09:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。