論文の概要: A General and Efficient Training for Transformer via Token Expansion
- arxiv url: http://arxiv.org/abs/2404.00672v1
- Date: Sun, 31 Mar 2024 12:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:20:51.112000
- Title: A General and Efficient Training for Transformer via Token Expansion
- Title(参考訳): トーケン拡張による変圧器の汎用的・効率的な訓練
- Authors: Wenxuan Huang, Yunhang Shen, Jiao Xie, Baochang Zhang, Gaoqi He, Ke Li, Xing Sun, Shaohui Lin,
- Abstract要約: ビジョントランスフォーマー(ViT)は通常、非常に大きなトレーニングコストを必要とする。
既存の手法はViTの訓練を高速化しようと試みているが、通常は精度の低下を伴う手法を無視している。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案し,ViTに対する一貫したトレーニングアクセラレーションを実現する。
- 参考スコア(独自算出の注目度): 44.002355107931805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable performance of Vision Transformers (ViTs) typically requires an extremely large training cost. Existing methods have attempted to accelerate the training of ViTs, yet typically disregard method universality with accuracy dropping. Meanwhile, they break the training consistency of the original transformers, including the consistency of hyper-parameters, architecture, and strategy, which prevents them from being widely applied to different Transformer networks. In this paper, we propose a novel token growth scheme Token Expansion (termed ToE) to achieve consistent training acceleration for ViTs. We introduce an "initialization-expansion-merging" pipeline to maintain the integrity of the intermediate feature distribution of original transformers, preventing the loss of crucial learnable information in the training process. ToE can not only be seamlessly integrated into the training and fine-tuning process of transformers (e.g., DeiT and LV-ViT), but also effective for efficient training frameworks (e.g., EfficientTrain), without twisting the original training hyper-parameters, architecture, and introducing additional training strategies. Extensive experiments demonstrate that ToE achieves about 1.3x faster for the training of ViTs in a lossless manner, or even with performance gains over the full-token training baselines. Code is available at https://github.com/Osilly/TokenExpansion .
- Abstract(参考訳): 視覚変換器(ViT)の顕著な性能は、通常非常に大きな訓練コストを必要とする。
既存の手法はViTの訓練を加速しようと試みているが、通常は精度の低下とともにメソッドの普遍性を無視している。
同時に、ハイパーパラメータ、アーキテクチャ、戦略の整合性を含む、オリジナルのトランスフォーマーのトレーニング一貫性を破り、異なるトランスフォーマーネットワークに広く適用されないようにした。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案する。
初期化・拡張・統合」パイプラインを導入し、元のトランスフォーマーの中間特徴分布の整合性を維持し、トレーニングプロセスにおいて重要な学習可能な情報が失われないようにする。
ToEは、トランスフォーマーのトレーニングおよび微調整プロセス(例:DeiT、LV-ViT)にシームレスに統合できるだけでなく、オリジナルのトレーニングハイパーパラメータ、アーキテクチャ、追加のトレーニング戦略を導入することなく、効率的なトレーニングフレームワーク(例:EfficientTrain)に有効である。
大規模な実験により、ToEはViTのトレーニングにおいて、損失のない方法で約1.3倍の速度を達成するか、あるいは完全なトレーニングベースラインよりもパフォーマンスが向上することを示した。
コードはhttps://github.com/Osilly/TokenExpansionで入手できる。
関連論文リスト
- Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - A Fast Training-Free Compression Framework for Vision Transformers [3.5024680868164437]
トケンプルーニングは、大きなトランスフォーマーモデルの推論を高速化する有効なソリューションとして登場した。
しかし、ViT(Vision Transformer)モデルの加速には、スクラッチからのトレーニングや、追加パラメータによる微調整が必要である。
本研究では, (i) 初期層における高密度特徴抽出器, (ii) 圧縮性に優れたシャープネス最小化モデル, (iii) 局所的・グローバル的トークンマージによる高速な訓練自由圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-04T05:34:25Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - Adaptive Attention Link-based Regularization for Vision Transformers [6.6798113365140015]
視覚変換器(ViT)のトレーニング効率を向上させるための正規化手法を提案する。
トレーニング可能なリンクはアテンション拡張モジュールと呼ばれ、ViTと同時にトレーニングされる。
我々は,各CNNアクティベーションマップと各ViTアテンションヘッドの関係を抽出し,これに基づいて,高度なアテンション拡張モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-25T01:26:43Z) - Automated Progressive Learning for Efficient Training of Vision
Transformers [125.22744987949227]
ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。
プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。
本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T05:37:08Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。