論文の概要: Data Level Lottery Ticket Hypothesis for Vision Transformers
- arxiv url: http://arxiv.org/abs/2211.01484v3
- Date: Mon, 29 May 2023 19:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 02:16:22.486345
- Title: Data Level Lottery Ticket Hypothesis for Vision Transformers
- Title(参考訳): 視覚トランスフォーマーのためのデータレベル抽選券仮説
- Authors: Xuan Shen, Zhenglun Kong, Minghai Qin, Peiyan Dong, Geng Yuan, Xin
Meng, Hao Tang, Xiaolong Ma, Yanzhi Wang
- Abstract要約: 従来の入賞券は既存の方法では視力変換器(ViT)の重量レベルでは見つからないことを示す。
我々は、ViTの入力依存にインスパイアされた画像パッチからなるデータを入力するために、ViTのLTHを一般化する。
我々は、このサブセットを、入力データのかなりの量の情報を表す、エムの入賞チケットにパッチを当てる。
- 参考スコア(独自算出の注目度): 37.65571408026445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The conventional lottery ticket hypothesis (LTH) claims that there exists a
sparse subnetwork within a dense neural network and a proper random
initialization method called the winning ticket, such that it can be trained
from scratch to almost as good as the dense counterpart. Meanwhile, the
research of LTH in vision transformers (ViTs) is scarcely evaluated. In this
paper, we first show that the conventional winning ticket is hard to find at
the weight level of ViTs by existing methods. Then, we generalize the LTH for
ViTs to input data consisting of image patches inspired by the input dependence
of ViTs. That is, there exists a subset of input image patches such that a ViT
can be trained from scratch by using only this subset of patches and achieve
similar accuracy to the ViTs trained by using all image patches. We call this
subset of input patches the em winning tickets, which represent a significant
amount of information in the input data. We use a ticket selector to generate
the winning tickets based on the informativeness of patches for various types
of ViT, including DeiT, LV-ViT, and Swin Transformers. The experiments show
that there is a clear difference between the performance of models trained with
winning tickets and randomly selected subsets, which verifies our proposed
theory. We elaborate on the analogical similarity between our proposed
Data-LTH-ViTs and the conventional LTH to further verify the integrity of our
theory. The Source codes are available at
https://github.com/shawnricecake/vit-lottery-ticket-input.
- Abstract(参考訳): 従来の抽選切符仮説(LTH)は、密集ニューラルネットワーク内にスパースサブネットワークが存在し、入賞切符と呼ばれる適切なランダム初期化法が存在し、それは密集切符と同程度にゼロからトレーニングすることができると主張している。
一方、視覚変換器(ViT)におけるLTHの研究はほとんど評価されていない。
本稿では,従来の方式ではvitの重量レベルでは従来の当選券を見つけることが困難であることを示す。
次に、VTの入力依存性にインスパイアされた画像パッチからなるデータを入力するために、VTのLTHを一般化する。
すなわち、入力イメージパッチのサブセットが存在し、このパッチのサブセットだけを使用して、ViTをゼロからトレーニングし、すべてのイメージパッチを使用してトレーニングされたViTと同様の精度を達成することができる。
我々は、このサブセットを、入力データのかなりの量の情報を表す、エムの入賞チケットにパッチを当てる。
チケットセレクタを用いて,DeiT,LV-ViT,Swin Transformerなど,様々な種類のViTのパッチ情報に基づいて,入賞券を生成する。
実験の結果, 入賞券で学習したモデルの性能とランダムに選択された部分集合との間には明らかな差が認められ, 提案する理論が検証された。
提案するデータ-LTH-ViTと従来のLTHの類似性について詳しく検討し,理論の完全性をさらに検証した。
ソースコードはhttps://github.com/shawnricecake/vit-lottery-ticket-inputで入手できる。
関連論文リスト
- SkipViT: Speeding Up Vision Transformers with a Token-Level Skip
Connection [3.960622297616708]
本稿では、異なる低コストの計算経路を分離して送信することで、重要でないトークン間の不要な相互作用量を最適化する手法を提案する。
スクラッチからViT-smallをトレーニングする実験結果から,SkipViTはトークンの55%を効果的に削減でき,トレーニングスループットは13%以上向上した。
論文 参考訳(メタデータ) (2024-01-27T04:24:49Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。
そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。
我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文 参考訳(メタデータ) (2021-03-30T17:53:45Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z) - Winning Lottery Tickets in Deep Generative Models [64.79920299421255]
本稿では,GANやVAEなどの深層生成モデルにおいて,入賞チケットの存在を示す。
また、異なる生成モデル間での当選チケットの転送可能性を示す。
論文 参考訳(メタデータ) (2020-10-05T21:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。