Fugu-MT 論文翻訳(概要): A General and Efficient Training for Transformer via Token Expansion

論文の概要: A General and Efficient Training for Transformer via Token Expansion

arxiv url: http://arxiv.org/abs/2404.00672v1
Date: Sun, 31 Mar 2024 12:44:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 02:20:51.112000
Title: A General and Efficient Training for Transformer via Token Expansion
Title（参考訳）: トーケン拡張による変圧器の汎用的・効率的な訓練
Authors: Wenxuan Huang, Yunhang Shen, Jiao Xie, Baochang Zhang, Gaoqi He, Ke Li, Xing Sun, Shaohui Lin,
Abstract要約: ビジョントランスフォーマー(ViT)は通常、非常に大きなトレーニングコストを必要とする。既存の手法はViTの訓練を高速化しようと試みているが、通常は精度の低下を伴う手法を無視している。本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案し,ViTに対する一貫したトレーニングアクセラレーションを実現する。
参考スコア（独自算出の注目度）: 44.002355107931805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The remarkable performance of Vision Transformers (ViTs) typically requires an extremely large training cost. Existing methods have attempted to accelerate the training of ViTs, yet typically disregard method universality with accuracy dropping. Meanwhile, they break the training consistency of the original transformers, including the consistency of hyper-parameters, architecture, and strategy, which prevents them from being widely applied to different Transformer networks. In this paper, we propose a novel token growth scheme Token Expansion (termed ToE) to achieve consistent training acceleration for ViTs. We introduce an "initialization-expansion-merging" pipeline to maintain the integrity of the intermediate feature distribution of original transformers, preventing the loss of crucial learnable information in the training process. ToE can not only be seamlessly integrated into the training and fine-tuning process of transformers (e.g., DeiT and LV-ViT), but also effective for efficient training frameworks (e.g., EfficientTrain), without twisting the original training hyper-parameters, architecture, and introducing additional training strategies. Extensive experiments demonstrate that ToE achieves about 1.3x faster for the training of ViTs in a lossless manner, or even with performance gains over the full-token training baselines. Code is available at https://github.com/Osilly/TokenExpansion .
Abstract（参考訳）: 視覚変換器(ViT)の顕著な性能は、通常非常に大きな訓練コストを必要とする。既存の手法はViTの訓練を加速しようと試みているが、通常は精度の低下とともにメソッドの普遍性を無視している。同時に、ハイパーパラメータ、アーキテクチャ、戦略の整合性を含む、オリジナルのトランスフォーマーのトレーニング一貫性を破り、異なるトランスフォーマーネットワークに広く適用されないようにした。本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案する。初期化・拡張・統合」パイプラインを導入し、元のトランスフォーマーの中間特徴分布の整合性を維持し、トレーニングプロセスにおいて重要な学習可能な情報が失われないようにする。 ToEは、トランスフォーマーのトレーニングおよび微調整プロセス(例:DeiT、LV-ViT)にシームレスに統合できるだけでなく、オリジナルのトレーニングハイパーパラメータ、アーキテクチャ、追加のトレーニング戦略を導入することなく、効率的なトレーニングフレームワーク(例:EfficientTrain)に有効である。大規模な実験により、ToEはViTのトレーニングにおいて、損失のない方法で約1.3倍の速度を達成するか、あるいは完全なトレーニングベースラインよりもパフォーマンスが向上することを示した。コードはhttps://github.com/Osilly/TokenExpansionで入手できる。

関連論文リスト

DNT: a Deeply Normalized Transformer that can be trained by Momentum SGD [43.19878131775045]
我々は,バニラmSGDWによるシームレスなトレーニングを実現するために,DNT(Deeply Normalized Transformer)を導入する。具体的には、DNTにおいて、トランスフォーマーの適切な位置における正規化手法を戦略的に統合し、各層のヤコビ行列を効果的に変調する。 DNTで使用される正規化技術の理論的正当性と、2つの人気のあるTransformerアーキテクチャに対する広範な実証的評価の両方を提供する。
論文参考訳（メタデータ） (2025-07-23T13:37:23Z)
Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought [46.71030329872635]
Chain of Thought (CoT) のプロンプトにより,大規模言語モデル (LLM) の性能が大幅に向上することが示されている。線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2025-02-28T16:40:38Z)
Exploring the Benefit of Activation Sparsity in Pre-training [117.25661020250658]
プレトレーニング中に活性化特性がどう変化するかを検討した。本稿では,Sparse-Dense Learning (SSD)を提案する。 SSDは同じモデルサイズで同等のパフォーマンスを実現し、事前トレーニングコストを削減する。
論文参考訳（メタデータ） (2024-10-04T13:53:33Z)
Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文参考訳（メタデータ） (2024-02-08T18:49:09Z)
ClipFormer: Key-Value Clipping of Transformers on Memristive Crossbars for Write Noise Mitigation [6.853523674099236]
非揮発性メモリ(NVM)に基づくインメモリコンピューティング(IMC)クロスバーは、トランスフォーマーを高速化するための有望なソリューションとして登場した。書込みノイズを動的に発生させることにより、事前訓練された視覚変換器(ViT)がクロスバーに対して脆弱であることがわかった。本稿では,事前学習したViTモデルの非理想的精度を高めるために,新しい旋律的クロスバープラットフォームを提案する。
論文参考訳（メタデータ） (2024-02-04T19:04:37Z)
Experts Weights Averaging: A New General Training Scheme for Vision Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文参考訳（メタデータ） (2023-08-11T12:05:12Z)
Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。 SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文参考訳（メタデータ） (2023-03-02T22:12:51Z)
Adaptive Attention Link-based Regularization for Vision Transformers [6.6798113365140015]
視覚変換器(ViT)のトレーニング効率を向上させるための正規化手法を提案する。トレーニング可能なリンクはアテンション拡張モジュールと呼ばれ、ViTと同時にトレーニングされる。我々は,各CNNアクティベーションマップと各ViTアテンションヘッドの関係を抽出し,これに基づいて,高度なアテンション拡張モジュールを提案する。
論文参考訳（メタデータ） (2022-11-25T01:26:43Z)
Automated Progressive Learning for Efficient Training of Vision Transformers [125.22744987949227]
ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
論文参考訳（メタデータ） (2022-03-28T05:37:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。