Fugu-MT 論文翻訳(概要): Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping

論文の概要: Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping

arxiv url: http://arxiv.org/abs/2406.02004v1
Date: Tue, 4 Jun 2024 06:34:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 17:50:34.134078
Title: Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping
Title（参考訳）: コア毎のクリッピングによる低メモリ化と性能向上を効果的に訓練するASRモデル
Authors: Lun Wang, Om Thakkar, Zhong Meng, Nicole Rafidi, Rohit Prabhavalkar, Arun Narayanan,
Abstract要約: Per-core clip-ping (PCC) は、ASRモデルにおける意図しない記憶を効果的に緩和することができる。 PCCはASRのパフォーマンス指標に肯定的な影響を与え、収束率の改善と単語誤り率の削減につながった。
参考スコア（独自算出の注目度）: 27.547461769425855
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Gradient clipping plays a vital role in training large-scale automatic speech recognition (ASR) models. It is typically applied to minibatch gradients to prevent gradient explosion, and to the individual sample gradients to mitigate unintended memorization. This work systematically investigates the impact of a specific granularity of gradient clipping, namely per-core clip-ping (PCC), across training a wide range of ASR models. We empirically demonstrate that PCC can effectively mitigate unintended memorization in ASR models. Surprisingly, we find that PCC positively influences ASR performance metrics, leading to improved convergence rates and reduced word error rates. To avoid tuning the additional hyperparameter introduced by PCC, we further propose a novel variant, adaptive per-core clipping (APCC), for streamlined optimization. Our findings highlight the multifaceted benefits of PCC as a strategy for robust, privacy-forward ASR model training.
Abstract（参考訳）: グラディエント・クリッピングは、大規模自動音声認識(ASR)モデルの訓練において重要な役割を果たす。一般的には、勾配の爆発を防ぐためのミニバッチ勾配や、意図しない暗記を緩和するために個々のサンプル勾配に適用される。この研究は、幅広いASRモデルのトレーニングにおいて、勾配クリッピングの特定の粒度、すなわちコアごとのクリッピング(PCC)の影響を体系的に調査する。我々は,PCCがASRモデルにおける意図しない記憶を効果的に緩和できることを実証的に実証した。驚くべきことに、PCCはASRのパフォーマンス指標に肯定的な影響を与え、収束率の改善と単語誤り率の低減につながっている。さらに,PCCが導入したハイパーパラメータの調整を避けるため,並列化最適化のための新しい変種アダプティブ・パー・コア・クリッピング(APCC)を提案する。本研究は,PCCの多面的メリットを,堅牢でプライバシ・フォワードなASRモデルトレーニングの戦略として強調した。

関連論文リスト

Tractable Sharpness-Aware Learning of Probabilistic Circuits [9.353446248109599]
確率回路(英: Probabilistic Circuits、PC)は、広範囲のクエリに対して正確かつトラクタブルな推論を可能にする生成モデルのクラスである。近年の進歩により、深層で表現力に富んだPCの学習が可能になったが、この能力の増大は、しばしば過度な適合につながる。ニューラルネットワークにおけるシャープネス認識の最小化に着想を得て,PCのトレーニングのためのヘッセン系正規化器を提案する。
論文参考訳（メタデータ） (2025-08-07T16:13:24Z)
Mitigating Disparate Impact of Differentially Private Learning through Bounded Adaptive Clipping [4.817614848684669]
差別化プライバシ(DP)は、プライバシ保護機械学習に不可欠なフレームワークとなっている。 DP学習でよく用いられるグラディエントクリッピングは、挑戦的なサンプルから大きな勾配を抑えることができる。適応的なクリッピングによってこの問題が増幅されることが示され、これにより、小さな値に束縛されたクリッピングを小さくして、適合する多数派と一致させることがしばしばある。本稿では,過度な勾配抑制を防止するために,可変な下界を導入する有界適応クリッピングを提案する。
論文参考訳（メタデータ） (2025-06-02T07:44:17Z)
ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文参考訳（メタデータ） (2025-03-08T11:19:48Z)
Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation [13.084333776247743]
微調整は分散シフトに対する堅牢性を低下させ、アウト・オブ・ディストリビューション(OOD)のパフォーマンスに影響を及ぼす。本稿では,低ランク適応(LoRA)ブロックを選択的に活性化するインジケータ関数を用いたパラメータ効率細調整(PEFT)手法を提案する。有効微調整は5%のアクティブブロックで実現でき、効率が大幅に向上することを示した。
論文参考訳（メタデータ） (2025-01-26T03:22:22Z)
Enhancing DP-SGD through Non-monotonous Adaptive Scaling Gradient Weight [15.139854970044075]
我々はDP-PSASC(disferially Private Per-Sample Adaptive Scaling Clipping)を導入する。このアプローチは、従来のクリッピングを非単調適応勾配スケーリングに置き換える。 DP-PSASCは勾配のプライバシーを保ち、多様なデータセットに優れた性能を提供する。
論文参考訳（メタデータ） (2024-11-05T12:47:30Z)
DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文参考訳（メタデータ） (2024-10-04T19:30:39Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Reactive Model Correction: Mitigating Harm to Task-Relevant Features via Conditional Bias Suppression [12.44857030152608]
ディープニューラルネットワークは、高リスクアプリケーションにおいて致命的な結果をもたらす可能性のあるトレーニングデータにおいて、学習と急激な相関に依存する傾向があります。余剰訓練を伴わずにポストホックに適用できる有害な特徴に対するモデル依存を抑制するための様々なアプローチが提案されている。本稿では,モデル由来の知識とeXplainable Artificial Intelligence(XAI)の洞察に基づくリアクティブアプローチを提案する。
論文参考訳（メタデータ） (2024-04-15T09:16:49Z)
Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-01T07:49:11Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文参考訳（メタデータ） (2021-06-17T02:40:18Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。