論文の概要: A General and Efficient Training for Transformer via Token Expansion
- arxiv url: http://arxiv.org/abs/2404.00672v1
- Date: Sun, 31 Mar 2024 12:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:20:51.112000
- Title: A General and Efficient Training for Transformer via Token Expansion
- Title(参考訳): トーケン拡張による変圧器の汎用的・効率的な訓練
- Authors: Wenxuan Huang, Yunhang Shen, Jiao Xie, Baochang Zhang, Gaoqi He, Ke Li, Xing Sun, Shaohui Lin,
- Abstract要約: ビジョントランスフォーマー(ViT)は通常、非常に大きなトレーニングコストを必要とする。
既存の手法はViTの訓練を高速化しようと試みているが、通常は精度の低下を伴う手法を無視している。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案し,ViTに対する一貫したトレーニングアクセラレーションを実現する。
- 参考スコア(独自算出の注目度): 44.002355107931805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable performance of Vision Transformers (ViTs) typically requires an extremely large training cost. Existing methods have attempted to accelerate the training of ViTs, yet typically disregard method universality with accuracy dropping. Meanwhile, they break the training consistency of the original transformers, including the consistency of hyper-parameters, architecture, and strategy, which prevents them from being widely applied to different Transformer networks. In this paper, we propose a novel token growth scheme Token Expansion (termed ToE) to achieve consistent training acceleration for ViTs. We introduce an "initialization-expansion-merging" pipeline to maintain the integrity of the intermediate feature distribution of original transformers, preventing the loss of crucial learnable information in the training process. ToE can not only be seamlessly integrated into the training and fine-tuning process of transformers (e.g., DeiT and LV-ViT), but also effective for efficient training frameworks (e.g., EfficientTrain), without twisting the original training hyper-parameters, architecture, and introducing additional training strategies. Extensive experiments demonstrate that ToE achieves about 1.3x faster for the training of ViTs in a lossless manner, or even with performance gains over the full-token training baselines. Code is available at https://github.com/Osilly/TokenExpansion .
- Abstract(参考訳): 視覚変換器(ViT)の顕著な性能は、通常非常に大きな訓練コストを必要とする。
既存の手法はViTの訓練を加速しようと試みているが、通常は精度の低下とともにメソッドの普遍性を無視している。
同時に、ハイパーパラメータ、アーキテクチャ、戦略の整合性を含む、オリジナルのトランスフォーマーのトレーニング一貫性を破り、異なるトランスフォーマーネットワークに広く適用されないようにした。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案する。
初期化・拡張・統合」パイプラインを導入し、元のトランスフォーマーの中間特徴分布の整合性を維持し、トレーニングプロセスにおいて重要な学習可能な情報が失われないようにする。
ToEは、トランスフォーマーのトレーニングおよび微調整プロセス(例:DeiT、LV-ViT)にシームレスに統合できるだけでなく、オリジナルのトレーニングハイパーパラメータ、アーキテクチャ、追加のトレーニング戦略を導入することなく、効率的なトレーニングフレームワーク(例:EfficientTrain)に有効である。
大規模な実験により、ToEはViTのトレーニングにおいて、損失のない方法で約1.3倍の速度を達成するか、あるいは完全なトレーニングベースラインよりもパフォーマンスが向上することを示した。
コードはhttps://github.com/Osilly/TokenExpansionで入手できる。
関連論文リスト
- ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文 参考訳(メタデータ) (2024-06-16T15:14:56Z) - ClipFormer: Key-Value Clipping of Transformers on Memristive Crossbars
for Write Noise Mitigation [6.853523674099236]
非揮発性メモリ(NVM)に基づくインメモリコンピューティング(IMC)クロスバーは、トランスフォーマーを高速化するための有望なソリューションとして登場した。
書込みノイズを動的に発生させることにより、事前訓練された視覚変換器(ViT)がクロスバーに対して脆弱であることがわかった。
本稿では,事前学習したViTモデルの非理想的精度を高めるために,新しい旋律的クロスバープラットフォームを提案する。
論文 参考訳(メタデータ) (2024-02-04T19:04:37Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - Adaptive Attention Link-based Regularization for Vision Transformers [6.6798113365140015]
視覚変換器(ViT)のトレーニング効率を向上させるための正規化手法を提案する。
トレーニング可能なリンクはアテンション拡張モジュールと呼ばれ、ViTと同時にトレーニングされる。
我々は,各CNNアクティベーションマップと各ViTアテンションヘッドの関係を抽出し,これに基づいて,高度なアテンション拡張モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-25T01:26:43Z) - Automated Progressive Learning for Efficient Training of Vision
Transformers [125.22744987949227]
ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。
プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。
本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T05:37:08Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。