論文の概要: The Lottery Ticket Hypothesis for Vision Transformers
- arxiv url: http://arxiv.org/abs/2211.01484v1
- Date: Wed, 2 Nov 2022 21:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:43:05.032431
- Title: The Lottery Ticket Hypothesis for Vision Transformers
- Title(参考訳): 視覚変換器のロッキーチケット仮説
- Authors: Xuan Shen, Zhenglun Kong, Minghai Qin, Peiyan Dong, Geng Yuan, Xin
Meng, Hao Tang, Xiaolong Ma, Yanzhi Wang
- Abstract要約: 従来の入賞券は既存の方法ではViTの重量レベルでは見つからないことを示す。
DeiT, LV-ViT, Swin Transformers など, 様々な種類の ViT に対して, 入賞券を入力パッチで検索する方法を提案する。
- 参考スコア(独自算出の注目度): 37.65571408026445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The conventional lottery ticket hypothesis (LTH) claims that there exists a
sparse subnetwork within a dense neural network and a proper random
initialization method, called the winning ticket, such that it can be trained
from scratch to almost as good as the dense counterpart. Meanwhile, the
research of LTH in vision transformers (ViTs) is scarcely evaluated. In this
paper, we first show that the conventional winning ticket is hard to find at
weight level of ViTs by existing methods. Then, we generalize the LTH for ViTs
to input images consisting of image patches inspired by the input dependence of
ViTs. That is, there exists a subset of input image patches such that a ViT can
be trained from scratch by using only this subset of patches and achieve
similar accuracy to the ViTs trained by using all image patches. We call this
subset of input patches the winning tickets, which represent a significant
amount of information in the input. Furthermore, we present a simple yet
effective method to find the winning tickets in input patches for various types
of ViT, including DeiT, LV-ViT, and Swin Transformers. More specifically, we
use a ticket selector to generate the winning tickets based on the
informativeness of patches. Meanwhile, we build another randomly selected
subset of patches for comparison, and the experiments show that there is clear
difference between the performance of models trained with winning tickets and
randomly selected subsets.
- Abstract(参考訳): 従来の抽選切符仮説(LTH)は、密集ニューラルネットワーク内にスパースサブネットワークが存在し、入賞切符と呼ばれる適切なランダム初期化法があり、それがスクラッチから密集切符とほぼ同等に訓練できると主張している。
一方、視覚変換器(ViT)におけるLTHの研究はほとんど評価されていない。
本稿では,従来の入賞券は既存の方法ではViTの重量レベルでは見つからないことを示す。
そして、VTの入力依存性にインスパイアされた画像パッチからなる画像を入力するために、VTのLTHを一般化する。
すなわち、入力イメージパッチのサブセットが存在し、このパッチのサブセットだけを使用して、ViTをゼロからトレーニングし、すべてのイメージパッチを使用してトレーニングされたViTと同様の精度を達成することができる。
我々は、このサブセットを、入賞券にパッチを当て、入力のかなりの量の情報を表す。
さらに,DeiT,LV-ViT,Swin Transformerなど,様々な種類のViTに対して,入賞券を入力パッチで見つける方法を提案する。
具体的には、チケットセレクタを使用して、パッチの情報に基づいて当選チケットを生成します。
一方,比較のためにランダムに選択したパッチのサブセットを構築し,入賞チケットで訓練したモデルの性能とランダムに選択したサブセットとの間には明らかな違いがあることを示した。
関連論文リスト
- SkipViT: Speeding Up Vision Transformers with a Token-Level Skip
Connection [3.960622297616708]
本稿では、異なる低コストの計算経路を分離して送信することで、重要でないトークン間の不要な相互作用量を最適化する手法を提案する。
スクラッチからViT-smallをトレーニングする実験結果から,SkipViTはトークンの55%を効果的に削減でき,トレーニングスループットは13%以上向上した。
論文 参考訳(メタデータ) (2024-01-27T04:24:49Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。
そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。
我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文 参考訳(メタデータ) (2021-03-30T17:53:45Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z) - Winning Lottery Tickets in Deep Generative Models [64.79920299421255]
本稿では,GANやVAEなどの深層生成モデルにおいて,入賞チケットの存在を示す。
また、異なる生成モデル間での当選チケットの転送可能性を示す。
論文 参考訳(メタデータ) (2020-10-05T21:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。