Fugu-MT 論文翻訳(概要): Demystify Transformers & Convolutions in Modern Image Deep Networks

論文の概要: Demystify Transformers & Convolutions in Modern Image Deep Networks

arxiv url: http://arxiv.org/abs/2211.05781v1
Date: Thu, 10 Nov 2022 18:59:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-11 15:30:37.018643
Title: Demystify Transformers & Convolutions in Modern Image Deep Networks
Title（参考訳）: 現代の画像深層ネットワークにおける変圧器と畳み込み
Authors: Jifeng Dai, Min Shi, Weiyun Wang, Sitong Wu, Linjie Xing, Wenhai Wang, Xizhou Zhu, Lewei Lu, Jie Zhou, Xiaogang Wang, Yu Qiao, Xiaowei Hu
Abstract要約: ビジョントランスフォーマーの最近の成功は、新しい特徴変換パラダイムによる一連のビジョンバックボーンにインスピレーションを与えている。我々は,人気コンボリューションとアテンション演算子の真の利益を特定し,それらについて詳細な研究を行うことを目標としている。
参考スコア（独自算出の注目度）: 83.24514038952802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent success of vision transformers has inspired a series of vision backbones with novel feature transformation paradigms, which report steady performance gain. Although the novel feature transformation designs are often claimed as the source of gain, some backbones may benefit from advanced engineering techniques, which makes it hard to identify the real gain from the key feature transformation operators. In this paper, we aim to identify real gain of popular convolution and attention operators and make an in-depth study of them. We observe that the main difference among these feature transformation modules, e.g., attention or convolution, lies in the way of spatial feature aggregation, or the so-called "spatial token mixer" (STM). Hence, we first elaborate a unified architecture to eliminate the unfair impact of different engineering techniques, and then fit STMs into this architecture for comparison. Based on various experiments on upstream/downstream tasks and the analysis of inductive bias, we find that the engineering techniques boost the performance significantly, but the performance gap still exists among different STMs. The detailed analysis also reveals some interesting findings of different STMs, such as effective receptive fields and invariance tests. The code and trained models will be publicly available at https://github.com/OpenGVLab/STM-Evaluation
Abstract（参考訳）: 近年のvision transformersの成功は、新しい機能変換パラダイムによる一連のビジョンバックボーンに影響を与え、安定したパフォーマンス向上を報告している。新たな特徴変換設計は、しばしばゲインの源として主張されるが、いくつかのバックボーンは高度な技術技術から恩恵を受ける可能性があるため、重要な特徴変換演算子から真の利益を特定することは困難である。本稿では,一般のコンボリューションとアテンション演算子の真の利益を特定し,それらを詳細に研究することを目的とする。これらの特徴変換モジュール(例えば注意や畳み込み)の主な違いは、空間的特徴集約やいわゆる「空間的トークンミキサー」(spatial token mixer、stm)である。したがって、まず、異なるエンジニアリング技術による不公平な影響を取り除くために統一アーキテクチャを精査し、その後、比較のためにSTMをこのアーキテクチャに適合させる。上流/下流タスクの様々な実験と帰納バイアスの分析から,工学的手法が性能を著しく向上させることがわかったが,STM間の性能差は依然として残っている。詳細な分析では、有効受容場や不変性テストなど、異なるSTMの興味深い発見も示されている。コードとトレーニングされたモデルはhttps://github.com/OpenGVLab/STM-Evaluationで公開される。

関連論文リスト

The Sword of Damocles in ViTs: Computational Redundancy Amplifies Adversarial Transferability [38.32538271219404]
視覚変換器(ViT)における計算冗長性の役割と,その逆変換性への影響について検討する。データレベルとモデルレベルを含む2種類の冗長性を同定し、攻撃効果を増幅する。この知見に基づいて,注目空間の操作,アテンションヘッドの置換,クリーントークンの正規化,ゴーストモエの多様化,テスト時間逆行訓練など,一連のテクニックを設計する。
論文参考訳（メタデータ） (2025-04-15T01:59:47Z)
MSSFC-Net:Enhancing Building Interpretation with Multi-Scale Spatial-Spectral Feature Collaboration [4.480146005071275]
リモートセンシング画像からの解釈を構築するには、主に2つの基本的なタスクがある。リモートセンシング画像における共同ビルディング抽出と変更検出のためのマルチスケール空間スペクトル特徴協調型デュアルタスクネットワーク(MSSFC-Net)を提案する。
論文参考訳（メタデータ） (2025-04-01T13:10:23Z)
Investigation of Hierarchical Spectral Vision Transformer Architecture for Classification of Hyperspectral Imagery [7.839253919389809]
視覚変換器の理論的正当性は、HSI分類においてCNNアーキテクチャよりも優れている。 HSI分類に適した統合階層型スペクトルビジョン変換器アーキテクチャについて検討した。視覚変換器の独特な強さは、その網羅的なアーキテクチャに起因すると結論付けている。
論文参考訳（メタデータ） (2024-09-14T00:53:13Z)
Aligning in a Compact Space: Contrastive Knowledge Distillation between Heterogeneous Architectures [4.119589507611071]
本稿では,低周波成分を用いたコントラスト知識蒸留(Contrastive Knowledge Distillation, LFCC)フレームワークを提案する。具体的には、教師モデルと学生モデルの両方から中間特徴の低周波成分を抽出するために、マルチスケールの低域通過フィルタを設計する。本稿では,ImageNet-1K と CIFAR-100 のベンチマークにおいて,LFCC が優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2024-05-28T18:44:42Z)
Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。 SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文参考訳（メタデータ） (2023-08-19T08:17:41Z)
Improving Stain Invariance of CNNs for Segmentation by Fusing Channel Attention and Domain-Adversarial Training [5.501810688265425]
異なるスライド作成技術、化学物質、スキャナ構成などの染色プロトコルのばらつきは、スライド画像全体(WSI)の多様なセットをもたらす可能性がある。この分布シフトは、見えないサンプルに対するディープラーニングモデルの性能に悪影響を及ぼす可能性がある。セマンティックセグメンテーションのための単一ソース設定における変化を染色するために,畳み込みニューラルネットワーク(CNN)の一般化性を改善する手法を提案する。
論文参考訳（メタデータ） (2023-04-22T16:54:37Z)
A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。 Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文参考訳（メタデータ） (2022-10-27T13:24:08Z)
Weak Augmentation Guided Relational Self-Supervised Learning [80.0680103295137]
本稿では、異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナル自己教師型学習(ReSSL)フレームワークを提案する。提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,テクトitrelationmetricとして高めている。実験の結果,提案したReSSLは,ネットワークアーキテクチャの異なる最先端手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2022-03-16T16:14:19Z)
Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文参考訳（メタデータ） (2022-03-15T06:52:25Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)
Exploring Complementary Strengths of Invariant and Equivariant Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文参考訳（メタデータ） (2021-03-01T21:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。