論文の概要: Interpret Vision Transformers as ConvNets with Dynamic Convolutions
- arxiv url: http://arxiv.org/abs/2309.10713v1
- Date: Tue, 19 Sep 2023 16:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:43:34.373173
- Title: Interpret Vision Transformers as ConvNets with Dynamic Convolutions
- Title(参考訳): 動的畳み込みを用いたConvNetの解釈型視覚変換器
- Authors: Chong Zhou, Chen Change Loy, Bo Dai
- Abstract要約: 我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
- 参考スコア(独自算出の注目度): 70.59235381143831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a debate about the superiority between vision Transformers and
ConvNets, serving as the backbone of computer vision models. Although they are
usually considered as two completely different architectures, in this paper, we
interpret vision Transformers as ConvNets with dynamic convolutions, which
enables us to characterize existing Transformers and dynamic ConvNets in a
unified framework and compare their design choices side by side. In addition,
our interpretation can also guide the network design as researchers now can
consider vision Transformers from the design space of ConvNets and vice versa.
We demonstrate such potential through two specific studies. First, we inspect
the role of softmax in vision Transformers as the activation function and find
it can be replaced by commonly used ConvNets modules, such as ReLU and Layer
Normalization, which results in a faster convergence rate and better
performance. Second, following the design of depth-wise convolution, we create
a corresponding depth-wise vision Transformer that is more efficient with
comparable performance. The potential of the proposed unified interpretation is
not limited to the given examples and we hope it can inspire the community and
give rise to more advanced network architectures.
- Abstract(参考訳): ビジョントランスフォーマーとConvNetsの優位性については議論があり、コンピュータビジョンモデルのバックボーンとして機能している。
通常2つの全く異なるアーキテクチャとみなされるが、本稿では、視覚変換器を動的畳み込みを持つConvNetと解釈し、既存の変換器と動的変換器を統一されたフレームワークで特徴付け、それらの設計選択を並べて比較する。
さらに、我々の解釈はネットワーク設計のガイドにもなり、研究者は視覚変換器をConvNetsの設計空間から考えることができ、その逆も考えられる。
2つの特定の研究を通してその可能性を実証する。
まず,視覚変換器におけるソフトマックスの役割をアクティベーション関数として検討し,ReLUやレイヤ正規化といった一般的なConvNetsモジュールに置き換えることで,より高速な収束率と性能向上を実現する。
第二に、奥行き方向畳み込みの設計に従って、同等の性能でより効率的な奥行き方向視覚変換器を作成する。
提案された統一解釈の可能性は、与えられた例に限らず、コミュニティに刺激を与え、より高度なネットワークアーキテクチャを生み出すことを望んでいる。
関連論文リスト
- Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - A ConvNet for the 2020s [94.89735578018099]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。
これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。
本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。