論文の概要: Demystifying Local Vision Transformer: Sparse Connectivity, Weight
Sharing, and Dynamic Weight
- arxiv url: http://arxiv.org/abs/2106.04263v1
- Date: Tue, 8 Jun 2021 11:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 02:43:06.888892
- Title: Demystifying Local Vision Transformer: Sparse Connectivity, Weight
Sharing, and Dynamic Weight
- Title(参考訳): 局所視覚変換器のデミスティフィケーション:疎結合性、ウェイトシェアリング、動的ウェイト
- Authors: Qi Han, Zejia Fan, Qi Dai, Lei Sun, Ming-Ming Cheng, Jiaying Liu,
Jingdong Wang
- Abstract要約: Local Vision Transformer (ViT)は、視覚認識における最先端のパフォーマンスを実現する。
チャネルワイドな局所接続層として局所的な注意を解析する。
スウィントランスフォーマーに比べて、深度ワイドの畳み込みに基づくモデルと、より低い複雑さを持つ動的変種がオンパーで、あるいはわずかに優れていることを実証的に観察する。
- 参考スコア(独自算出の注目度): 114.03127079555456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) attains state-of-the-art performance in visual
recognition, and the variant, Local Vision Transformer, makes further
improvements. The major component in Local Vision Transformer, local attention,
performs the attention separately over small local windows. We rephrase local
attention as a channel-wise locally-connected layer and analyze it from two
network regularization manners, sparse connectivity and weight sharing, as well
as weight computation. Sparse connectivity: there is no connection across
channels, and each position is connected to the positions within a small local
window. Weight sharing: the connection weights for one position are shared
across channels or within each group of channels. Dynamic weight: the
connection weights are dynamically predicted according to each image instance.
We point out that local attention resembles depth-wise convolution and its
dynamic version in sparse connectivity. The main difference lies in weight
sharing - depth-wise convolution shares connection weights (kernel weights)
across spatial positions. We empirically observe that the models based on
depth-wise convolution and the dynamic variant with lower computation
complexity perform on-par with or sometimes slightly better than Swin
Transformer, an instance of Local Vision Transformer, for ImageNet
classification, COCO object detection and ADE semantic segmentation. These
observations suggest that Local Vision Transformer takes advantage of two
regularization forms and dynamic weight to increase the network capacity.
- Abstract(参考訳): Vision Transformer (ViT)は、視覚認識における最先端のパフォーマンスを達成し、その変種であるLocal Vision Transformerはさらなる改善を行う。
ローカルビジョントランスフォーマーの主要なコンポーネントであるローカルアテンションは、小さなローカルウィンドウ上で別々に注意を向ける。
我々は局所的な注意をチャネル毎の局所的接続層として再現し,2つのネットワーク正規化手法,疎結合と重み共有,および重み計算から解析する。
スパース接続:チャネル間の接続がなく、各位置は小さなローカルウィンドウ内の位置に接続されている。
重みの共有: 1つの位置の接続重みは、チャネル間または各チャネルグループ内で共有される。
動的重み: 接続重みは各画像インスタンスに応じて動的に予測される。
局所的な注意は深度的な畳み込みと疎結合性における動的バージョンに似ていると指摘する。
重みの共有 - 深さ方向の畳み込みは、空間的な位置をまたいで接続重み(カーネル重み)を共有する。
画像ネット分類,cocoオブジェクト検出,adeセマンティクスセグメンテーションにおいて,奥行き方向畳み込みに基づくモデルと計算複雑性の低い動的変種が,局所視覚トランスフォーマの例であるswintransformerと同等か、あるいは若干優れていることを実験的に観察した。
これらの観測は、局所視覚トランスフォーマーが2つの正規化形式と動的重みを利用してネットワーク容量を増加させることを示唆している。
関連論文リスト
- B-cos Alignment for Inherently Interpretable CNNs and Vision
Transformers [97.75725574963197]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
このような変換の列は、完全なモデル計算を忠実に要約する単一の線形変換を誘導することを示す。
得られた説明は視覚的品質が高く,定量的解釈可能性指標下では良好に機能することを示す。
論文 参考訳(メタデータ) (2023-06-19T12:54:28Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Dual Complementary Dynamic Convolution for Image Recognition [13.864357201410648]
畳み込みニューラルネットワーク(CNN)のための2分岐二重補完動的畳み込み演算子(DCDC)を提案する。
DCDCオペレータは、バニラ畳み込みと、空間適応的特徴のみをキャプチャする既存の動的畳み込みの制限を克服する。
実験により、DCDCオペレーターベースのResNets(DCDC-ResNets)は、画像分類におけるバニラResNetsや最先端の動的畳み込みネットワークよりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2022-11-11T12:32:12Z) - B-cos Networks: Alignment is All We Need for Interpretability [136.27303006772294]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
B-コス変換は、完全なモデル計算を忠実に要約する単一の線形変換を誘導する。
VGGs、ResNets、InceptionNets、DenseNetsといった一般的なモデルに簡単に統合できることを示します。
論文 参考訳(メタデータ) (2022-05-20T16:03:29Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Boosting Salient Object Detection with Transformer-based Asymmetric
Bilateral U-Net [19.21709807149165]
既存のSOD法は主にスキップ接続を持つU字型畳み込みニューラルネットワーク(CNN)に依存している。
SODのグローバル表現とローカル表現の両方を学ぶためのトランスフォーマーベースの非対称バイラテラルU-Net(ABiU-Net)を提案する。
ABiU-Netは、従来の最先端SOD法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-08-17T19:45:28Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。