論文の概要: TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition
- arxiv url: http://arxiv.org/abs/2310.19380v2
- Date: Thu, 30 Nov 2023 01:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:02:31.601818
- Title: TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition
- Title(参考訳): transxnet: 視覚認識のためのdual dynamic token mixerによるグローバルおよびローカルダイナミクスの学習
- Authors: Meng Lou, Hong-Yu Zhou, Sibei Yang, Yizhou Yu
- Abstract要約: 本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
- 参考スコア(独自算出の注目度): 71.6546914957701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have integrated convolution into transformers to introduce
inductive bias and improve generalization performance. However, the static
nature of conventional convolution prevents it from dynamically adapting to
input variations, resulting in a representation discrepancy between convolution
and self-attention as self-attention calculates attention matrices dynamically.
Furthermore, when stacking token mixers that consist of convolution and
self-attention to form a deep network, the static nature of convolution hinders
the fusion of features previously generated by self-attention into convolution
kernels. These two limitations result in a sub-optimal representation capacity
of the constructed networks. To find a solution, we propose a lightweight Dual
Dynamic Token Mixer (D-Mixer) that aggregates global information and local
details in an input-dependent way. D-Mixer works by applying an efficient
global attention module and an input-dependent depthwise convolution separately
on evenly split feature segments, endowing the network with strong inductive
bias and an enlarged effective receptive field. We use D-Mixer as the basic
building block to design TransXNet, a novel hybrid CNN-Transformer vision
backbone network that delivers compelling performance. In the ImageNet-1K image
classification task, TransXNet-T surpasses Swin-T by 0.3% in top-1 accuracy
while requiring less than half of the computational cost. Furthermore,
TransXNet-S and TransXNet-B exhibit excellent model scalability, achieving
top-1 accuracy of 83.8% and 84.6% respectively, with reasonable computational
costs. Additionally, our proposed network architecture demonstrates strong
generalization capabilities in various dense prediction tasks, outperforming
other state-of-the-art networks while having lower computational costs. Code is
available at https://github.com/LMMMEng/TransXNet.
- Abstract(参考訳): 近年,インダクティブバイアスの導入と一般化性能の向上を目的として,変圧器への畳み込みを取り入れている。
しかし、従来の畳み込みの静的な性質は、入力のバリエーションに動的に適応することを妨げるため、自己注意が注意行列を動的に計算するにつれて、畳み込みと自己注意の表現の相違が生じる。
さらに、畳み込みと自己アテンションからなるトークンミキサーを積み重ねてディープネットワークを形成すると、畳み込みの静的性質は、自己アテンションによって生成された機能を畳み込みカーネルに融合させるのを妨げる。
これら2つの制限は、構築されたネットワークの準最適表現能力をもたらす。
そこで本研究では,グローバルな情報と局所的な詳細を入力依存的に集約する軽量なD-Mixerを提案する。
D-Mixerは、効率的なグローバルアテンションモジュールと入力依存の奥行き畳み込みを均等に分割した特徴セグメントに別々に適用し、ネットワークに強い帰納バイアスと拡張された有効受容場を与える。
我々は,新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計する上で,基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
さらに、TransXNet-SとTransXNet-Bは優れたモデルスケーラビリティを示し、それぞれ83.8%と84.6%の正確さを達成した。
さらに,提案するネットワークアーキテクチャは,計算コストを低減しつつ,様々な密集した予測タスクにおいて強力な一般化能力を示す。
コードはhttps://github.com/LMMMEng/TransXNetで入手できる。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Convolution and Attention Mixer for Synthetic Aperture Radar Image
Change Detection [41.38587746899477]
合成開口レーダ(SAR)画像変化検出は重要な課題であり,リモートセンシングコミュニティで注目されている。
既存のSAR変化検出法は主に畳み込みニューラルネットワーク(CNN)に基づいている
グローバルアテンションを取り入れたコンボリューション・アテンション・ミキサー(CAMixer)を提案する。
論文 参考訳(メタデータ) (2023-09-21T12:28:23Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - XnODR and XnIDR: Two Accurate and Fast Fully Connected Layers For
Convolutional Neural Networks [43.85390451313721]
Capsule Networkは、視覚認識タスクのためのディープニューラルネットワークの機能間の位置関係を定義するのに強力である。
ボトルネックはカプセル間の動的ルーティング機構の計算複雑性にある。
XnODRとXnIDRは、低いFLOPと少ないパラメータで高精度なネットワークを実現する。
論文 参考訳(メタデータ) (2021-11-21T16:42:01Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - MUXConv: Information Multiplexing in Convolutional Neural Networks [25.284420772533572]
MUXConvは、ネットワーク内のチャンネルと空間情報を段階的に多重化することで、情報の流れを増大させるように設計されている。
ImageNetでは、MUXNetsと呼ばれる結果のモデルが、MobileNetV3のパフォーマンス(75.3%のトップ-1精度)と乗算演算(218M)に一致している。
MUXNetは、転送学習やオブジェクト検出に適応する際にもよく機能する。
論文 参考訳(メタデータ) (2020-03-31T00:09:47Z) - ReActNet: Towards Precise Binary Neural Network with Generalized
Activation Functions [76.05981545084738]
本稿では,新たな計算コストを伴わずに,実数値ネットワークからの精度ギャップを埋めるため,バイナリネットワークを強化するためのいくつかのアイデアを提案する。
まず,パラメータフリーのショートカットを用いて,コンパクトな実数値ネットワークを修正・バイナライズすることで,ベースラインネットワークを構築する。
提案したReActNetはすべての最先端技術よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T02:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。