論文の概要: Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping
- arxiv url: http://arxiv.org/abs/2406.02004v1
- Date: Tue, 4 Jun 2024 06:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:50:34.134078
- Title: Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping
- Title(参考訳): コア毎のクリッピングによる低メモリ化と性能向上を効果的に訓練するASRモデル
- Authors: Lun Wang, Om Thakkar, Zhong Meng, Nicole Rafidi, Rohit Prabhavalkar, Arun Narayanan,
- Abstract要約: Per-core clip-ping (PCC) は、ASRモデルにおける意図しない記憶を効果的に緩和することができる。
PCCはASRのパフォーマンス指標に肯定的な影響を与え、収束率の改善と単語誤り率の削減につながった。
- 参考スコア(独自算出の注目度): 27.547461769425855
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Gradient clipping plays a vital role in training large-scale automatic speech recognition (ASR) models. It is typically applied to minibatch gradients to prevent gradient explosion, and to the individual sample gradients to mitigate unintended memorization. This work systematically investigates the impact of a specific granularity of gradient clipping, namely per-core clip-ping (PCC), across training a wide range of ASR models. We empirically demonstrate that PCC can effectively mitigate unintended memorization in ASR models. Surprisingly, we find that PCC positively influences ASR performance metrics, leading to improved convergence rates and reduced word error rates. To avoid tuning the additional hyperparameter introduced by PCC, we further propose a novel variant, adaptive per-core clipping (APCC), for streamlined optimization. Our findings highlight the multifaceted benefits of PCC as a strategy for robust, privacy-forward ASR model training.
- Abstract(参考訳): グラディエント・クリッピングは、大規模自動音声認識(ASR)モデルの訓練において重要な役割を果たす。
一般的には、勾配の爆発を防ぐためのミニバッチ勾配や、意図しない暗記を緩和するために個々のサンプル勾配に適用される。
この研究は、幅広いASRモデルのトレーニングにおいて、勾配クリッピングの特定の粒度、すなわちコアごとのクリッピング(PCC)の影響を体系的に調査する。
我々は,PCCがASRモデルにおける意図しない記憶を効果的に緩和できることを実証的に実証した。
驚くべきことに、PCCはASRのパフォーマンス指標に肯定的な影響を与え、収束率の改善と単語誤り率の低減につながっている。
さらに,PCCが導入したハイパーパラメータの調整を避けるため,並列化最適化のための新しい変種アダプティブ・パー・コア・クリッピング(APCC)を提案する。
本研究は,PCCの多面的メリットを,堅牢でプライバシ・フォワードなASRモデルトレーニングの戦略として強調した。
関連論文リスト
- Enhancing DP-SGD through Non-monotonous Adaptive Scaling Gradient Weight [15.139854970044075]
我々はDP-PSASC(disferially Private Per-Sample Adaptive Scaling Clipping)を導入する。
このアプローチは、従来のクリッピングを非単調適応勾配スケーリングに置き換える。
DP-PSASCは勾配のプライバシーを保ち、多様なデータセットに優れた性能を提供する。
論文 参考訳(メタデータ) (2024-11-05T12:47:30Z) - DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。
大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文 参考訳(メタデータ) (2024-10-04T19:30:39Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Reactive Model Correction: Mitigating Harm to Task-Relevant Features via Conditional Bias Suppression [12.44857030152608]
ディープニューラルネットワークは、高リスクアプリケーションにおいて致命的な結果をもたらす可能性のあるトレーニングデータにおいて、学習と急激な相関に依存する傾向があります。
余剰訓練を伴わずにポストホックに適用できる有害な特徴に対するモデル依存を抑制するための様々なアプローチが提案されている。
本稿では,モデル由来の知識とeXplainable Artificial Intelligence(XAI)の洞察に基づくリアクティブアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-15T09:16:49Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。