論文の概要: TransNeXt: Robust Foveal Visual Perception for Vision Transformers
- arxiv url: http://arxiv.org/abs/2311.17132v3
- Date: Sat, 20 Apr 2024 15:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:13:26.537529
- Title: TransNeXt: Robust Foveal Visual Perception for Vision Transformers
- Title(参考訳): TransNeXt: 視覚変換器のロバストな視覚知覚
- Authors: Dai Shi,
- Abstract要約: 生体模倣設計に基づくトークンミキサーAggregated Attentionを提案する。
従来のクエリやキーと対話する学習可能なトークンを組み込んでいます。
集約された注意と畳み込みGLUを組み合わせて、TransNeXtと呼ばれる新しいビジュアルバックボーンを作成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the depth degradation effect in residual connections, many efficient Vision Transformers models that rely on stacking layers for information exchange often fail to form sufficient information mixing, leading to unnatural visual perception. To address this issue, in this paper, we propose Aggregated Attention, a biomimetic design-based token mixer that simulates biological foveal vision and continuous eye movement while enabling each token on the feature map to have a global perception. Furthermore, we incorporate learnable tokens that interact with conventional queries and keys, which further diversifies the generation of affinity matrices beyond merely relying on the similarity between queries and keys. Our approach does not rely on stacking for information exchange, thus effectively avoiding depth degradation and achieving natural visual perception. Additionally, we propose Convolutional GLU, a channel mixer that bridges the gap between GLU and SE mechanism, which empowers each token to have channel attention based on its nearest neighbor image features, enhancing local modeling capability and model robustness. We combine aggregated attention and convolutional GLU to create a new visual backbone called TransNeXt. Extensive experiments demonstrate that our TransNeXt achieves state-of-the-art performance across multiple model sizes. At a resolution of $224^2$, TransNeXt-Tiny attains an ImageNet accuracy of 84.0%, surpassing ConvNeXt-B with 69% fewer parameters. Our TransNeXt-Base achieves an ImageNet accuracy of 86.2% and an ImageNet-A accuracy of 61.6% at a resolution of $384^2$, a COCO object detection mAP of 57.1, and an ADE20K semantic segmentation mIoU of 54.7.
- Abstract(参考訳): 残差接続における深度劣化効果のため、情報交換のために積み重ね層に依存する多くの効率的なビジョントランスフォーマーモデルでは、十分な情報混合が得られず、不自然な視覚知覚に繋がる。
本稿では,生物の眼球運動と眼球運動をシミュレートするバイオミメティックデザインに基づくトークンミキサーAggregated Attentionを提案する。
さらに、従来のクエリやキーと相互作用する学習可能なトークンを組み込み、クエリとキーの類似性に依存するだけでなく、アフィニティ行列の生成も多様化する。
本手法では,情報交換の積み重ねに頼らず,奥行き劣化を効果的に回避し,自然な視覚知覚を実現する。
さらに,GLUとSEのギャップを埋めるチャネルミキサーであるConvolutional GLUを提案する。
集約された注意と畳み込みGLUを組み合わせて、TransNeXtと呼ばれる新しいビジュアルバックボーンを作成します。
大規模な実験により、TransNeXtは複数のモデルサイズにまたがって最先端のパフォーマンスを実現することが実証された。
224^2$の解像度で、TransNeXt-Tinyはイメージネットの精度84.0%に達し、69%のパラメータでConvNeXt-Bを上回った。
TransNeXt-Base は ImageNet の精度86.2%、ImageNet-A の精度61.6%を384^2$、COCO オブジェクト検出 mAP 57.1、ADE20K セマンティックセグメンテーション mIoU 54.7 で達成している。
関連論文リスト
- ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - BiViT: Extremely Compressed Binary Vision Transformer [19.985314022860432]
両眼視変換器(BiViT)の地平線を推し進めるための2つの基本的な課題について提案する。
本稿では,データ分布に動的に適応し,バイナライゼーションによる誤差を低減するソフトマックス対応バイナリ化を提案する。
提案手法は,TinyImageNetデータセット上で,最先端技術に対して19.8%向上する。
論文 参考訳(メタデータ) (2022-11-14T03:36:38Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - MlTr: Multi-label Classification with Transformer [35.14232810099418]
本稿では,ウィンドウ分割,インウインドウ,クロスウインドウといった特徴を持つマルチラベルトランスフォーマーアーキテクチャを提案する。
提案したMlTrは,MS-COCO, Pascal-VOC, NUS-WIDEなど,多言語多言語データセットの最先端結果を示す。
論文 参考訳(メタデータ) (2021-06-11T06:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。