論文の概要: Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training
- arxiv url: http://arxiv.org/abs/2211.10801v1
- Date: Sat, 19 Nov 2022 21:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:26:57.248456
- Title: Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training
- Title(参考訳): タマネギの皮剥き:効率的な視覚トランスフォーマートレーニングのためのデータ冗長性の階層的削減
- Authors: Zhenglun Kong, Haoyu Ma, Geng Yuan, Mengshu Sun, Yanyue Xie, Peiyan
Dong, Xin Meng, Xuan Shen, Hao Tang, Minghai Qin, Tianlong Chen, Xiaolong Ma,
Xiaohui Xie, Zhangyang Wang, Yanzhi Wang
- Abstract要約: ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 110.79400526706081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have recently obtained success in many
applications, but their intensive computation and heavy memory usage at both
training and inference time limit their generalization. Previous compression
algorithms usually start from the pre-trained dense models and only focus on
efficient inference, while time-consuming training is still unavoidable. In
contrast, this paper points out that the million-scale training data is
redundant, which is the fundamental reason for the tedious training. To address
the issue, this paper aims to introduce sparsity into data and proposes an
end-to-end efficient training framework from three sparse perspectives, dubbed
Tri-Level E-ViT. Specifically, we leverage a hierarchical data redundancy
reduction scheme, by exploring the sparsity under three levels: number of
training examples in the dataset, number of patches (tokens) in each example,
and number of connections between tokens that lie in attention weights. With
extensive experiments, we demonstrate that our proposed technique can
noticeably accelerate training for various ViT architectures while maintaining
accuracy. Remarkably, under certain ratios, we are able to improve the ViT
accuracy rather than compromising it. For example, we can achieve 15.2% speedup
with 72.6% (+0.4) Top-1 accuracy on Deit-T, and 15.7% speedup with 79.9% (+0.1)
Top-1 accuracy on Deit-S. This proves the existence of data redundancy in ViT.
- Abstract(参考訳): 視覚変換器(ViT)は近年、多くのアプリケーションで成功を収めているが、その集中計算と、トレーニング時間と推論時間の両方でのメモリ使用量により、一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
対照的に,本研究では,100万件のトレーニングデータが冗長であり,退屈なトレーニングの根本的な理由を指摘する。
そこで本論文では,データに空間性を導入することを目的として,3つの疎視的視点から,エンドツーエンドの効率的なトレーニングフレームワークTri-Level E-ViTを提案する。
具体的には,データセットのトレーニング例数,各サンプルのパッチ(トークン)数,注目重みにあるトークン間の接続数という,3つのレベルからスパーシティを探索することで,階層的なデータ冗長性低減手法を活用する。
大規模な実験により,提案手法は精度を維持しつつ,様々なViTアーキテクチャのトレーニングを著しく高速化できることを示す。
注目すべきは、一定の比率で、私たちはそれを妥協するのではなく、ViTの精度を向上させることができることです。
例えば、deit-tでは72.6%(+0.4)のtop-1精度で15.2%、deit-sでは79.9%(+0.1)のtop-1精度で15.7%のスピードアップを達成できる。
これはvitにおけるデータ冗長性の存在を証明する。
関連論文リスト
- FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification [35.105593013654]
拡散変換器(DiT)は収束速度が遅い。
アーキテクチャの変更なしにDiTトレーニングを加速することを目指しています。
我々は極めてシンプルで実践可能な設計戦略であるFasterDiTを提案する。
論文 参考訳(メタデータ) (2024-10-14T10:17:24Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Data-Efficient Augmentation for Training Neural Networks [15.870155099135538]
本稿では,データポイントのサブセットを選択するための厳密な手法を提案する。
SVHNのCIFAR10では6.3倍,SVHNでは2.2倍の高速化を実現し,様々なサブセットサイズでベースラインを最大10%向上させる。
論文 参考訳(メタデータ) (2022-10-15T19:32:20Z) - Quantized Training of Gradient Boosting Decision Trees [84.97123593657584]
我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。
低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。
大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
論文 参考訳(メタデータ) (2022-07-20T06:27:06Z) - Adversarial Unlearning: Reducing Confidence Along Adversarial Directions [88.46039795134993]
本稿では,自己生成事例の信頼性を低下させる補完的な正規化戦略を提案する。
RCADと呼ばれるこの手法は、トレーニング損失を増やすために反対に選択された方向に沿って横たわっている流通外の事例に対する信頼性を低下させることを目的としている。
その単純さにもかかわらず、多くの分類ベンチマークでは、RCADを既存の技術に追加して、絶対値の1~3%の精度でテストできることがわかった。
論文 参考訳(メタデータ) (2022-06-03T02:26:24Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z) - Compression-aware Continual Learning using Singular Value Decomposition [2.4283778735260686]
本稿では,ニューラルネットワークを動的に成長させる圧縮型連続タスク学習手法を提案する。
近年のモデル圧縮技術にインスパイアされた我々は、圧縮認識トレーニングを採用し、低ランク重量近似を行う。
本手法は,コストのかかる微調整を必要とせず,最小性能の圧縮表現を実現する。
論文 参考訳(メタデータ) (2020-09-03T23:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。