論文の概要: Revisiting Vision Transformer from the View of Path Ensemble
- arxiv url: http://arxiv.org/abs/2308.06548v1
- Date: Sat, 12 Aug 2023 12:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 16:44:27.800617
- Title: Revisiting Vision Transformer from the View of Path Ensemble
- Title(参考訳): 経路アンサンブルから見た視覚変換器の再検討
- Authors: Shuning Chang, Pichao Wang, Hao Luo, Fan Wang, Mike Zheng Shou
- Abstract要約: 視覚変換器(ViT)は通常、トランス層のスタックと見なされる。
異なる長さの複数の並列経路を含むアンサンブルネットワークとして、ViTを見ることができることを示す。
- 参考スコア(独自算出の注目度): 40.093943843198424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) are normally regarded as a stack of transformer
layers. In this work, we propose a novel view of ViTs showing that they can be
seen as ensemble networks containing multiple parallel paths with different
lengths. Specifically, we equivalently transform the traditional cascade of
multi-head self-attention (MSA) and feed-forward network (FFN) into three
parallel paths in each transformer layer. Then, we utilize the identity
connection in our new transformer form and further transform the ViT into an
explicit multi-path ensemble network. From the new perspective, these paths
perform two functions: the first is to provide the feature for the classifier
directly, and the second is to provide the lower-level feature representation
for subsequent longer paths. We investigate the influence of each path for the
final prediction and discover that some paths even pull down the performance.
Therefore, we propose the path pruning and EnsembleScale skills for
improvement, which cut out the underperforming paths and re-weight the ensemble
components, respectively, to optimize the path combination and make the short
paths focus on providing high-quality representation for subsequent paths. We
also demonstrate that our path combination strategies can help ViTs go deeper
and act as high-pass filters to filter out partial low-frequency signals. To
further enhance the representation of paths served for subsequent paths,
self-distillation is applied to transfer knowledge from the long paths to the
short paths. This work calls for more future research to explain and design
ViTs from new perspectives.
- Abstract(参考訳): 視覚変換器(ViT)は通常、トランス層のスタックと見なされる。
本研究では,異なる長さの複数の並列経路を含むアンサンブルネットワークとして見ることのできる,新しいViTのビューを提案する。
具体的には、従来のマルチヘッドセルフアテンション(msa)とフィードフォワードネットワーク(ffn)のカスケードを、トランスフォーマー層毎に3つの並列パスに変換する。
そして、新しいトランスフォームのID接続を利用し、さらにViTを明示的なマルチパスアンサンブルネットワークに変換する。
新しい観点では、これらのパスは2つの機能を実行する: 1つは、分類器の機能を直接提供し、もう1つは、続く長いパスに対して下位レベルの特徴表現を提供することである。
最終予測に対する各パスの影響を調査し,いくつかのパスが性能を低下させる可能性を見出した。
そこで本研究では,低パフォーマンスパスの削減とアンサンブルコンポーネントの再重み付けを行い,経路の組み合わせを最適化し,後続パスに高品質表現を提供することに重点を置く,改善のためのパスプルーニングとアンサンブルスケールスキルを提案する。
また、私たちの経路の組み合わせ戦略は、ViTをより深くし、部分的な低周波信号をフィルタするハイパスフィルタとして機能することを示す。
続く経路に供される経路の表現をさらに強化するため、長い経路から短い経路へ知識を伝達するために自己蒸留を適用する。
この研究は、ViTを新たな視点から説明し、設計するためのさらなる研究を求めている。
関連論文リスト
- Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Representation Separation for Semantic Segmentation with Vision
Transformers [11.431694321563322]
イメージをパッチのシーケンスとして符号化するビジョントランスフォーマー(ViT)は、セマンティックセグメンテーションの新しいパラダイムをもたらす。
局所パッチレベルと大域領域レベルでの表現分離の効率的な枠組みをViTを用いたセマンティックセグメンテーションに適用する。
論文 参考訳(メタデータ) (2022-12-28T09:54:52Z) - Laneformer: Object-aware Row-Column Transformers for Lane Detection [96.62919884511287]
Laneformerは、自動運転における車線検出に適したトランスフォーマーベースのアーキテクチャである。
様々な視覚タスクにおけるトランスフォーマーエンコーダ・デコーダアーキテクチャの最近の進歩に触発されて、我々は新しいエンドツーエンドのLaneformerアーキテクチャの設計を進める。
論文 参考訳(メタデータ) (2022-03-18T10:14:35Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。