論文の概要: Revisit Micro-batch Clipping: Adaptive Data Pruning via Gradient Manipulation
- arxiv url: http://arxiv.org/abs/2408.16204v1
- Date: Thu, 29 Aug 2024 01:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 15:15:25.444578
- Title: Revisit Micro-batch Clipping: Adaptive Data Pruning via Gradient Manipulation
- Title(参考訳): Revisit Micro-batch Clipping:グラディエント・マニピュレーションによる適応型データ・プルーニング
- Authors: Lun Wang,
- Abstract要約: 勾配クリッピング法であるマイクロバッチクリッピングは,最近,自動音声認識(ASR)モデルの性能向上の可能性が示された。
本稿では,この現象を説明するための最初の試みを行う。
また、視覚モデルや言語モデルにおける音声モデル以外のマイクロバッチクリッピングの有効性を検証するとともに、これらの領域において有望な性能向上を示す。
- 参考スコア(独自算出の注目度): 6.412000746437734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Micro-batch clipping, a gradient clipping method, has recently shown potential in enhancing auto-speech recognition (ASR) model performance. However, the underlying mechanism behind this improvement remains mysterious, particularly the observation that only certain micro-batch sizes are beneficial. In this paper, we make the first attempt to explain this phenomenon. Inspired by recent data pruning research, we assume that specific training samples may impede model convergence during certain training phases. Under this assumption, the convergence analysis shows that micro-batch clipping can improve the convergence rate asymptotically at the cost of an additional constant bias that does not diminish with more training iterations. The bias is dependent on a few factors and can be minimized at specific micro-batch size, thereby elucidating the existence of the sweet-spot micro-batch size observed previously. We also verify the effectiveness of micro-batch clipping beyond speech models on vision and language models, and show promising performance gains in these domains. An exploration of potential limitations shows that micro-batch clipping is less effective when training data originates from multiple distinct domains.
- Abstract(参考訳): 勾配クリッピング法であるマイクロバッチクリッピングは,最近,自動音声認識(ASR)モデルの性能向上の可能性が示された。
しかし、この改善の根底にあるメカニズムは謎のままであり、特に特定のマイクロバッチサイズだけが有用であるという観察は謎のままである。
本稿では,この現象を説明するための最初の試みを行う。
最近のデータプルーニング研究に触発されて、特定のトレーニングサンプルは、特定のトレーニングフェーズにおけるモデル収束を阻害する可能性があると仮定する。
この仮定の下では、マイクロバッチクリッピングは、より多くのトレーニングイテレーションで減少しない追加の一定のバイアスのコストで漸近的に収束率を向上させることができることを示す。
このバイアスはいくつかの要因に依存しており、特定のマイクロバッチサイズで最小化できるため、以前に観察されたスイートスポットのマイクロバッチサイズの存在が解明される。
また,視覚モデルや言語モデルにおける音声モデル以外のマイクロバッチクリッピングの有効性を検証するとともに,これらの領域における有望な性能向上を示す。
潜在的な制限の探索は、トレーニングデータが複数の異なるドメインに由来する場合、マイクロバッチクリッピングは効果が低いことを示している。
関連論文リスト
- Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - A Novel Micro-Doppler Coherence Loss for Deep Learning Radar Applications [1.099532646524593]
本稿では,入力と出力間のマイクロドップラー振動成分の正規化パワーが一致した場合に,マイクロドップラーコヒーレンス損失を最小化する。
実データを用いた実験により、導入した損失の応用により、モデルがノイズに対してより弾力性を持つことを示す。
論文 参考訳(メタデータ) (2024-04-12T08:11:07Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Disentangling the Mechanisms Behind Implicit Regularization in SGD [21.893397581060636]
本稿では,小規模から大規模バッチの一般化ギャップを埋めるための様々な理論機構の能力に焦点を当てる。
本研究では,マイクロバッチ上での勾配基準やフィッシャー情報マトリックスのトレースを明示的にペナル化することにより,SGDの小型化を再現できることを示す。
この一般化性能は、正規化モデルの勾配ノルムが小バッチSGDのノルムといかによく似ているかによく相関している。
論文 参考訳(メタデータ) (2022-11-29T01:05:04Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Drawing Multiple Augmentation Samples Per Image During Training
Efficiently Decreases Test Error [40.775934631782654]
コンピュータビジョンでは、ミニバッチ内の各ユニークな画像に対して、データ拡張手順から1つのサンプルを描くのが一般的である。
画像毎に複数のサンプルを描画することで、小規模および大規模バッチトレーニングにおいて達成されるテスト精度が一貫して向上することがわかった。
論文 参考訳(メタデータ) (2021-05-27T17:51:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Exploring Effects of Random Walk Based Minibatch Selection Policy on
Knowledge Graph Completion [11.484811954887432]
KGCモデルのトレーニングのためのランダムウォークに基づく新しいミニバッチサンプリング手法を提案する。
提案手法はDB100Kデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-04-12T06:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。