論文の概要: TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition
- arxiv url: http://arxiv.org/abs/2310.19380v3
- Date: Tue, 11 Mar 2025 09:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:17:05.412973
- Title: TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition
- Title(参考訳): TransXNet: 視覚認識のためのデュアルダイナミックトケミキサーによるグローバルとローカルのダイナミクスの学習
- Authors: Meng Lou, Shu Zhang, Hong-Yu Zhou, Chuan Wu, Sibei Yang, Yizhou Yu,
- Abstract要約: グローバル・ローカル・ダイナミクスを同時に学習するための軽量なデュアル・ダイナミック・トケン・ミキサー(D-Mixer)を提案する。
D-Mixerは、効率的なグローバルアテンションモジュールと入力依存の奥行きの畳み込みを均等に分割した特徴セグメントに別々に適用することで機能する。
ImageNet-1K分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
- 参考スコア(独自算出の注目度): 63.93802691275012
- License:
- Abstract: Recent studies have integrated convolutions into transformers to introduce inductive bias and improve generalization performance. However, the static nature of conventional convolution prevents it from dynamically adapting to input variations, resulting in a representation discrepancy between convolution and self-attention as self-attention calculates attention matrices dynamically. Furthermore, when stacking token mixers that consist of convolution and self-attention to form a deep network, the static nature of convolution hinders the fusion of features previously generated by self-attention into convolution kernels. These two limitations result in a sub-optimal representation capacity of the constructed networks. To find a solution, we propose a lightweight Dual Dynamic Token Mixer (D-Mixer) to simultaneously learn global and local dynamics, that is, mechanisms that compute weights for aggregating global contexts and local details in an input-dependent manner. D-Mixer works by applying an efficient global attention module and an input-dependent depthwise convolution separately on evenly split feature segments, endowing the network with strong inductive bias and an enlarged effective receptive field. We use D-Mixer as the basic building block to design TransXNet, a novel hybrid CNN-Transformer vision backbone network that delivers compelling performance. In the ImageNet-1K classification task, TransXNet-T surpasses Swin-T by 0.3% in top-1 accuracy while requiring less than half of the computational cost. Furthermore, TransXNet-S and TransXNet-B exhibit excellent model scalability, achieving top-1 accuracy of 83.8% and 84.6% respectively, with reasonable computational costs. Additionally, our proposed network architecture demonstrates strong generalization capabilities in various dense prediction tasks, outperforming other state-of-the-art networks while having lower computational costs.
- Abstract(参考訳): 近年の研究では、帰納バイアスを導入し、一般化性能を向上させるために、畳み込みをトランスフォーマーに統合している。
しかし、従来の畳み込みの静的な性質は、入力のバリエーションに動的に適応することを妨げるため、自己注意が注意行列を動的に計算するにつれて、畳み込みと自己注意の表現の相違が生じる。
さらに、畳み込みと自己アテンションから構成されるトークンミキサーを積み重ねてディープネットワークを形成する場合、畳み込みの静的な性質は、自己アテンションによって以前に生成された特徴を畳み込みカーネルに融合することを妨げる。
これらの2つの制限は、構築されたネットワークの準最適表現能力をもたらす。
そこで本研究では,グローバル・ローカル・ダイナミクス,すなわちグローバル・コンテキストとローカル・詳細を入力に依存した方法で集約する重みを求める機構を同時に学習するための軽量なデュアル・ダイナミック・トークン・ミキサー(D-Mixer)を提案する。
D-Mixerは、効率的なグローバルアテンションモジュールと入力依存の奥行き畳み込みを均等に分割した特徴セグメントに別々に適用し、ネットワークに強い帰納バイアスと拡張された有効受容場を与える。
我々は,新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計する上で,基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1K分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
さらに、TransXNet-SとTransXNet-Bは優れたモデルスケーラビリティを示し、それぞれ83.8%と84.6%の正確さを達成した。
さらに,提案するネットワークアーキテクチャは,計算コストの低減を図りながら,他の最先端ネットワークよりも優れた高密度予測タスクにおいて,強力な一般化能力を示す。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Convolution and Attention Mixer for Synthetic Aperture Radar Image
Change Detection [41.38587746899477]
合成開口レーダ(SAR)画像変化検出は重要な課題であり,リモートセンシングコミュニティで注目されている。
既存のSAR変化検出法は主に畳み込みニューラルネットワーク(CNN)に基づいている
グローバルアテンションを取り入れたコンボリューション・アテンション・ミキサー(CAMixer)を提案する。
論文 参考訳(メタデータ) (2023-09-21T12:28:23Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - XnODR and XnIDR: Two Accurate and Fast Fully Connected Layers For
Convolutional Neural Networks [43.85390451313721]
Capsule Networkは、視覚認識タスクのためのディープニューラルネットワークの機能間の位置関係を定義するのに強力である。
ボトルネックはカプセル間の動的ルーティング機構の計算複雑性にある。
XnODRとXnIDRは、低いFLOPと少ないパラメータで高精度なネットワークを実現する。
論文 参考訳(メタデータ) (2021-11-21T16:42:01Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - MUXConv: Information Multiplexing in Convolutional Neural Networks [25.284420772533572]
MUXConvは、ネットワーク内のチャンネルと空間情報を段階的に多重化することで、情報の流れを増大させるように設計されている。
ImageNetでは、MUXNetsと呼ばれる結果のモデルが、MobileNetV3のパフォーマンス(75.3%のトップ-1精度)と乗算演算(218M)に一致している。
MUXNetは、転送学習やオブジェクト検出に適応する際にもよく機能する。
論文 参考訳(メタデータ) (2020-03-31T00:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。