論文の概要: Adaptive Split-Fusion Transformer
- arxiv url: http://arxiv.org/abs/2204.12196v1
- Date: Tue, 26 Apr 2022 10:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:30:46.040663
- Title: Adaptive Split-Fusion Transformer
- Title(参考訳): 適応スプリットフュージョン変換器
- Authors: Zixuan Su, Hao Zhang, Jingjing Chen, Lei Pang, Chong-Wah Ngo, Yu-Gang
Jiang
- Abstract要約: 本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
- 参考スコア(独自算出の注目度): 85.02951231565893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks for visual content understanding have recently evolved from
convolutional ones (CNNs) to transformers. The prior (CNN) relies on
small-windowed kernels to capture the regional clues, demonstrating solid local
expressiveness. On the contrary, the latter (transformer) establishes
long-range global connections between localities for holistic learning.
Inspired by this complementary nature, there is a growing interest in designing
hybrid models to best utilize each technique. Current hybrids merely replace
convolutions as simple approximations of linear projection or juxtapose a
convolution branch with attention, without concerning the importance of
local/global modeling. To tackle this, we propose a new hybrid named Adaptive
Split-Fusion Transformer (ASF-former) to treat convolutional and attention
branches differently with adaptive weights. Specifically, an ASF-former encoder
equally splits feature channels into half to fit dual-path inputs. Then, the
outputs of dual-path are fused with weighting scalars calculated from visual
cues. We also design the convolutional path compactly for efficiency concerns.
Extensive experiments on standard benchmarks, such as ImageNet-1K, CIFAR-10,
and CIFAR-100, show that our ASF-former outperforms its CNN, transformer
counterparts, and hybrid pilots in terms of accuracy (83.9% on ImageNet-1K),
under similar conditions (12.9G MACs/56.7M Params, without large-scale
pre-training). The code is available at:
https://github.com/szx503045266/ASF-former.
- Abstract(参考訳): 視覚的コンテンツ理解のためのニューラルネットワークは、近年、畳み込み(CNN)からトランスフォーマーへと進化している。
前者(CNN)は、局所的な表現力を示すために、小さなウィンドウを持つカーネルに依存している。
逆に、後者(トランスフォーマー)は、全体学習のための地域間の長距離グローバルな接続を確立する。
この相補的な性質に触発されて、各テクニックを最大限活用するためのハイブリッドモデルの設計に関心が高まっている。
現在のハイブリッドは、単に線形射影の単純な近似として畳み込みを置き換えるか、局所/グローバルモデリングの重要性を気にせずに畳み込み分岐に注意を向けるだけである。
そこで本研究では,ASF-former (Adaptive Split-Fusion Transformer) というハイブリッドシステムを提案する。
特に、asf-formerエンコーダは、機能チャネルを半分割してデュアルパス入力に適合させる。
そして、視覚手がかりから算出した重み付きスカラーでデュアルパスの出力を融合する。
また,効率性を考慮した畳み込み経路をコンパクトに設計する。
imagenet-1k、cifar-10、cifar-100などの標準ベンチマークに関する広範囲な実験により、我々のasf-formerは、cnn、transformer、ハイブリッドパイロットよりも精度で優れている(imagenet-1kでは83.9%)。
コードはhttps://github.com/szx5045266/asf-formerで入手できる。
関連論文リスト
- CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。
畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。
実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-09T08:47:13Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical
Image Segmentation [10.727162449071155]
我々はCNNスタイルのトランスフォーマー(ConvFormer)を構築し、より注意収束を促進し、セグメンテーション性能を向上させる。
位置埋め込みとトークン化とは対照的に、ConvFormerは2D畳み込みと最大プーリングを採用して位置情報の保存と特徴サイズの縮小を実現している。
論文 参考訳(メタデータ) (2023-09-09T02:18:17Z) - TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for
Medical Image Segmentation [20.976167468217387]
医用画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを取り入れた視覚変換器を提案する。
ネットワークには2つの利点がある。第1に、動的変形可能な畳み込み(DDConv)はCNNブランチで設計されており、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解決する。
実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-07T01:14:16Z) - CiT-Net: Convolutional Neural Networks Hand in Hand with Vision
Transformers for Medical Image Segmentation [10.20771849219059]
医用画像分割のための畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(CiT-Net)のハイブリッドアーキテクチャを提案する。
我々のCit-Netは、一般的なSOTA法よりも優れた医用画像セグメンテーション結果を提供する。
論文 参考訳(メタデータ) (2023-06-06T03:22:22Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - An Attention Free Transformer [22.789683304721276]
我々は,ドット製品の自己注意を不要にするトランスフォーマーの効率的な変種であるAttention Free Transformer (AFT)を導入する。
AFT層では、キーと値がまず学習された位置バイアスのセットと結合され、その結果がクエリに乗じられる。
AFTは全てのベンチマークで競争性能を示し、同時に優れた効率を提供する。
論文 参考訳(メタデータ) (2021-05-28T20:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。