論文の概要: Demystify Transformers & Convolutions in Modern Image Deep Networks
- arxiv url: http://arxiv.org/abs/2211.05781v2
- Date: Fri, 1 Dec 2023 08:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 19:18:02.204459
- Title: Demystify Transformers & Convolutions in Modern Image Deep Networks
- Title(参考訳): 現代の画像深層ネットワークにおける変圧器と畳み込み
- Authors: Xiaowei Hu, Min Shi, Weiyun Wang, Sitong Wu, Linjie Xing, Wenhai Wang,
Xizhou Zhu, Lewei Lu, Jie Zhou, Xiaogang Wang, Yu Qiao, Jifeng Dai
- Abstract要約: 本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
- 参考スコア(独自算出の注目度): 82.32018252867277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have gained popularity recently, leading to the
development of new vision backbones with improved features and consistent
performance gains. However, these advancements are not solely attributable to
novel feature transformation designs; certain benefits also arise from advanced
network-level and block-level architectures. This paper aims to identify the
real gains of popular convolution and attention operators through a detailed
study. We find that the key difference among these feature transformation
modules, such as attention or convolution, lies in their spatial feature
aggregation approach, known as the "spatial token mixer" (STM). To facilitate
an impartial comparison, we introduce a unified architecture to neutralize the
impact of divergent network-level and block-level designs. Subsequently,
various STMs are integrated into this unified framework for comprehensive
comparative analysis. Our experiments on various tasks and an analysis of
inductive bias show a significant performance boost due to advanced
network-level and block-level designs, but performance differences persist
among different STMs. Our detailed analysis also reveals various findings about
different STMs, such as effective receptive fields and invariance tests. All
models and codes used in this study are publicly available at
\url{https://github.com/OpenGVLab/STM-Evaluation}.
- Abstract(参考訳): 視覚トランスフォーマーは最近人気を博し、機能の改善と一貫したパフォーマンス向上を含む新しいビジョンバックボーンの開発につながった。
しかし、これらの進歩は、新しい特徴変換設計にのみ寄与するものではなく、高度なネットワークレベルとブロックレベルのアーキテクチャから生じる利点である。
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
これらの特徴変換モジュールのうち注意や畳み込みといった重要な違いは、空間的特徴集約アプローチ(spatial token mixer (stm) として知られる)にある。
公平な比較を容易にするために,ネットワークレベルとブロックレベルの異なる設計の影響を中和する統一アーキテクチャを導入する。
その後、包括的比較分析のための統合フレームワークに様々なstmが統合される。
各種タスクの実験と誘導バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により性能が著しく向上するが,STM間の性能差は持続する。
より詳細な分析により,有効受容場や不分散試験など,異なるSTMについて様々な知見が得られた。
この研究で使用されるすべてのモデルとコードは、 \url{https://github.com/OpenGVLab/STM-Evaluation}で公開されている。
関連論文リスト
- Understanding the Robustness of Multi-modal Contrastive Learning to
Distribution Shift [15.995056923785567]
CLIPのようなマルチモーダルな対照的な学習アプローチは、分散シフトに対して堅牢な学習表現において、顕著な成功を収めている。
実証的な成功にもかかわらず、そのような一般化可能な表現を学習するメカニズムは理解されていない。
論文 参考訳(メタデータ) (2023-10-08T02:25:52Z) - Improving Stain Invariance of CNNs for Segmentation by Fusing Channel
Attention and Domain-Adversarial Training [5.501810688265425]
異なるスライド作成技術、化学物質、スキャナ構成などの染色プロトコルのばらつきは、スライド画像全体(WSI)の多様なセットをもたらす可能性がある。
この分布シフトは、見えないサンプルに対するディープラーニングモデルの性能に悪影響を及ぼす可能性がある。
セマンティックセグメンテーションのための単一ソース設定における変化を染色するために,畳み込みニューラルネットワーク(CNN)の一般化性を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-04-22T16:54:37Z) - TFS-ViT: Token-Level Feature Stylization for Domain Generalization [17.76738595010974]
視覚変換器(ViT)は、幅広いコンピュータビジョンタスクにおいて優れた性能を示している。
本稿では,ドメイン一般化のためのToken-level Feature Stylization (TFS-ViT) アプローチを提案する。
提案手法は,異なる領域の画像の正規化統計を混合することによりトークンの特徴を変換する。
論文 参考訳(メタデータ) (2023-03-28T03:00:28Z) - Relational Self-Supervised Learning [84.08307840814044]
本稿では、異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナル自己教師型学習(ReSSL)フレームワークを提案する。
提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,テクトitrelationmetricとして高めている。
実験の結果,提案したReSSLは,ネットワークアーキテクチャの異なる最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-03-16T16:14:19Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。