論文の概要: Enhancing Transformer Training Efficiency with Dynamic Dropout
- arxiv url: http://arxiv.org/abs/2411.03236v1
- Date: Tue, 05 Nov 2024 16:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:15.181836
- Title: Enhancing Transformer Training Efficiency with Dynamic Dropout
- Title(参考訳): ダイナミックドロップアウトによる変圧器訓練の効率化
- Authors: Hanrui Yan, Dan Shao,
- Abstract要約: 本稿では,トランスフォーマーモデルのトレーニング効率を向上させるために,新しい正規化手法であるDynamic Dropoutを紹介する。
本手法では,GPTモデルを可変ドロップアウト率を受け入れるように修正し,トレーニング中にドロップアウト層を更新する。
- 参考スコア(独自算出の注目度): 0.7070434193752695
- License:
- Abstract: We introduce Dynamic Dropout, a novel regularization technique designed to enhance the training efficiency of Transformer models by dynamically adjusting the dropout rate based on training epochs or validation loss improvements. This approach addresses the challenge of balancing regularization and model capacity, which is crucial for achieving fast convergence and high performance. Our method involves modifying the GPT model to accept a variable dropout rate and updating dropout layers during training using schedules such as linear decay, exponential decay, and validation loss-based adjustments. Extensive experiments on the Shakespeare\_char dataset demonstrate that Dynamic Dropout significantly accelerates training and improves inference efficiency compared to a baseline model with a fixed dropout rate. The validation loss-based adjustment schedule provided the best overall performance, highlighting the potential of Dynamic Dropout as a valuable technique for training large-scale Transformer models.
- Abstract(参考訳): トレーニングエポックやバリデーション損失の改善に基づいてドロップアウト率を動的に調整し,トランスフォーマーモデルのトレーニング効率を向上させるために設計された新しい正規化手法であるDynamic Dropoutを紹介する。
このアプローチは、高速収束と高性能を達成するために不可欠である正規化とモデルキャパシティのバランスをとるという課題に対処する。
本手法では, 線形減衰, 指数減衰, 検証損失に基づく調整などのスケジュールを用いて, GPTモデルの変更を行い, 可変ドロップアウト率を受け入れるとともに, トレーニング中のドロップアウト層を更新する。
Shakespeare\_charデータセットの大規模な実験により、動的ドロップアウトはトレーニングを著しく加速し、一定のドロップアウト率のベースラインモデルと比較して推論効率を向上させることが示された。
検証損失に基づく調整スケジュールは、大規模なトランスフォーマーモデルをトレーニングするための貴重なテクニックとして、Dynamic Dropoutの可能性を強調し、全体的なパフォーマンスを最高のものにした。
関連論文リスト
- Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Exploring Quantization for Efficient Pre-Training of Transformer Language Models [11.696132057489786]
本研究の目的は,変圧器の効率的な事前学習における量子化の影響を検討することである。
重み、アクティベーション、勾配、状態に直線量子化を体系的に適用することにより、トレーニング中のモデル効率、安定性、性能への影響を評価する。
論文 参考訳(メタデータ) (2024-07-16T13:42:09Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Dynamic Corrective Self-Distillation for Better Fine-Tuning of
Pretrained Models [0.9217021281095907]
プレトレーニング言語モデル(PLM)の伝達学習過程において発生する攻撃的微調整の問題に対処する。
従来の機械学習における適応的強化法に着想を得て,PLMの微調整を改善するための効果的な動的補正自己蒸留手法を提案する。
本手法は,各イテレーションにおいて,各データポイントに割り当てられた重みを動的に調整することにより,学生モデルが積極的に適応し,自己補正を行う自己蒸留機構を実行することを含む。
論文 参考訳(メタデータ) (2023-12-12T07:26:36Z) - FLuID: Mitigating Stragglers in Federated Learning using Invariant
Dropout [1.8262547855491458]
Federated Learningは、機械学習モデルが個々のモバイルデバイス上でローカルにトレーニングし、共有サーバを介してモデルの更新を同期することを可能にする。
結果として、性能の低いストラグラーデバイスは、FLにおける全体的なトレーニング時間を規定することが多い。
Invariant Dropoutは,重み更新しきい値に基づいてサブモデルを抽出する手法である。
Invariant Dropout を用いた適応学習フレームワークであるFederated Learning を開発した。
論文 参考訳(メタデータ) (2023-07-05T19:53:38Z) - Homotopy-based training of NeuralODEs for accurate dynamics discovery [0.0]
我々は,同期とホモトピー最適化に基づくニューラルノードの新しいトレーニング手法を開発した。
モデルダイナミクスとトレーニングデータとを同期させることで、もともと不規則なロスランドスケープを味わうことを示す。
本手法は,トレーニングエポックの半数以下を必要としながら,競争力やより良いトレーニング損失を達成する。
論文 参考訳(メタデータ) (2022-10-04T06:32:45Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。