論文の概要: Demystify Transformers & Convolutions in Modern Image Deep Networks
- arxiv url: http://arxiv.org/abs/2211.05781v3
- Date: Wed, 18 Dec 2024 09:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:30.860449
- Title: Demystify Transformers & Convolutions in Modern Image Deep Networks
- Title(参考訳): 画像深部ネットワークにおけるデミスティファイショントランスフォーマーと畳み込み
- Authors: Xiaowei Hu, Min Shi, Weiyun Wang, Sitong Wu, Linjie Xing, Wenhai Wang, Xizhou Zhu, Lewei Lu, Jie Zhou, Xiaogang Wang, Yu Qiao, Jifeng Dai,
- Abstract要約: 本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
様々なSTMが統合されたフレームワークに統合され、包括的な比較分析を行う。
- 参考スコア(独自算出の注目度): 80.16624587948368
- License:
- Abstract: Vision transformers have gained popularity recently, leading to the development of new vision backbones with improved features and consistent performance gains. However, these advancements are not solely attributable to novel feature transformation designs; certain benefits also arise from advanced network-level and block-level architectures. This paper aims to identify the real gains of popular convolution and attention operators through a detailed study. We find that the key difference among these feature transformation modules, such as attention or convolution, lies in their spatial feature aggregation approach, known as the "spatial token mixer" (STM). To facilitate an impartial comparison, we introduce a unified architecture to neutralize the impact of divergent network-level and block-level designs. Subsequently, various STMs are integrated into this unified framework for comprehensive comparative analysis. Our experiments on various tasks and an analysis of inductive bias show a significant performance boost due to advanced network-level and block-level designs, but performance differences persist among different STMs. Our detailed analysis also reveals various findings about different STMs, including effective receptive fields, invariance, and adversarial robustness tests.
- Abstract(参考訳): ビジョントランスフォーマーは最近人気を博し、改良された機能と一貫したパフォーマンス向上を備えた新しいビジョンバックボーンの開発につながった。
しかし、これらの進歩は、新しい特徴変換設計にのみ寄与するものではなく、高度なネットワークレベルとブロックレベルのアーキテクチャから生じる利点である。
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みなど,これらの特徴変換モジュールの主な違いは,空間的特徴集約アプローチ(spatial token mixer, STM)にある。
そこで本研究では,ネットワークレベルとブロックレベルの異なる設計の影響を和らげる統一アーキテクチャを提案する。
その後、様々なSTMを総合的な比較分析のための統合されたフレームワークに統合する。
各種タスクの実験と誘導バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により性能が著しく向上するが,STM間の性能差は持続する。
また, 有効受容場, 不変性, 対向ロバストネステストなど, 異なるSTMについて, 様々な知見が得られた。
関連論文リスト
- Investigation of Hierarchical Spectral Vision Transformer Architecture for Classification of Hyperspectral Imagery [7.839253919389809]
視覚変換器の理論的正当性は、HSI分類においてCNNアーキテクチャよりも優れている。
HSI分類に適した統合階層型スペクトルビジョン変換器アーキテクチャについて検討した。
視覚変換器の独特な強さは、その網羅的なアーキテクチャに起因すると結論付けている。
論文 参考訳(メタデータ) (2024-09-14T00:53:13Z) - Aligning in a Compact Space: Contrastive Knowledge Distillation between Heterogeneous Architectures [4.119589507611071]
本稿では,低周波成分を用いたコントラスト知識蒸留(Contrastive Knowledge Distillation, LFCC)フレームワークを提案する。
具体的には、教師モデルと学生モデルの両方から中間特徴の低周波成分を抽出するために、マルチスケールの低域通過フィルタを設計する。
本稿では,ImageNet-1K と CIFAR-100 のベンチマークにおいて,LFCC が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-05-28T18:44:42Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Objectives Matter: Understanding the Impact of Self-Supervised
Objectives on Vision Transformer Representations [13.437097059358067]
本研究では,再建型学習機能と共同埋め込み型学習機能との相違について述べる。
結合埋め込み特性は,異なる目的が異なる情報分布を駆動するため,分類のための線形プローブ転送の精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-04-25T18:48:23Z) - Improving Stain Invariance of CNNs for Segmentation by Fusing Channel
Attention and Domain-Adversarial Training [5.501810688265425]
異なるスライド作成技術、化学物質、スキャナ構成などの染色プロトコルのばらつきは、スライド画像全体(WSI)の多様なセットをもたらす可能性がある。
この分布シフトは、見えないサンプルに対するディープラーニングモデルの性能に悪影響を及ぼす可能性がある。
セマンティックセグメンテーションのための単一ソース設定における変化を染色するために,畳み込みニューラルネットワーク(CNN)の一般化性を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-04-22T16:54:37Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Weak Augmentation Guided Relational Self-Supervised Learning [80.0680103295137]
本稿では、異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナル自己教師型学習(ReSSL)フレームワークを提案する。
提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,テクトitrelationmetricとして高めている。
実験の結果,提案したReSSLは,ネットワークアーキテクチャの異なる最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-03-16T16:14:19Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。