論文の概要: Efficient Training of Self-Supervised Speech Foundation Models on a
Compute Budget
- arxiv url: http://arxiv.org/abs/2409.16295v1
- Date: Mon, 9 Sep 2024 10:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 09:03:58.442841
- Title: Efficient Training of Self-Supervised Speech Foundation Models on a
Compute Budget
- Title(参考訳): 自己監督型音声基礎モデルの効率的な学習
Compute Budget
- Authors: Andy T. Liu, Yi-Cheng Lin, Haibin Wu, Stefan Winkler, Hung-yi Lee
- Abstract要約: 本稿では,限定的な計算予算の下で,自己教師付き学習(SSL)を用いて音声基礎モデルを効率的に訓練する方法を検討する。
モデルアーキテクチャ、モデルサイズ、データサイズなど、予算に影響を与えるSSLの重要な要因について検討する。
- 参考スコア(独自算出の注目度): 57.807614181024114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive success, training foundation models remains
computationally costly. This paper investigates how to efficiently train speech
foundation models with self-supervised learning (SSL) under a limited compute
budget. We examine critical factors in SSL that impact the budget, including
model architecture, model size, and data size. Our goal is to make analytical
steps toward understanding the training dynamics of speech foundation models.
We benchmark SSL objectives in an entirely comparable setting and find that
other factors contribute more significantly to the success of SSL. Our results
show that slimmer model architectures outperform common small architectures
under the same compute and parameter budget. We demonstrate that the size of
the pre-training data remains crucial, even with data augmentation during SSL
training, as performance suffers when iterating over limited data. Finally, we
identify a trade-off between model size and data size, highlighting an optimal
model size for a given compute budget.
- Abstract(参考訳): その素晴らしい成功にもかかわらず、トレーニング基礎モデルは計算に費用がかかるままである。
本稿では,限定的な計算予算の下で,自己教師付き学習(SSL)を用いて音声基礎モデルを効率的に訓練する方法を検討する。
モデルアーキテクチャ、モデルサイズ、データサイズなど、予算に影響を与えるSSLの重要な要因について検討する。
我々の目標は、音声基礎モデルの訓練力学を理解するための分析的なステップを作ることである。
我々はSSLの目標を全く同じ設定でベンチマークし、他の要因がSSLの成功にさらに大きく寄与していることに気付きました。
その結果、スリムモデルアーキテクチャは、同じ計算とパラメータの予算の下で、一般的な小さなアーキテクチャよりも優れていることがわかった。
我々は、SSLトレーニング中のデータ拡張であっても、トレーニング前のデータのサイズが重要なままであることを示す。
最後に、モデルサイズとデータサイズの間のトレードオフを特定し、与えられた計算予算に対して最適なモデルサイズを示す。
関連論文リスト
- Order of Magnitude Speedups for LLM Membership Inference [5.124111136127848]
大規模言語モデル(LLM)は、コンピューティングを広く革新させるという約束を持っているが、その複雑さと広範なトレーニングデータもまた、プライバシの脆弱性を露呈している。
LLMに関連する最も単純なプライバシーリスクの1つは、メンバーシップ推論攻撃(MIA)に対する感受性である。
文書がモデルのトレーニングセットに属しているか否かを判断するために,小さな量子レグレッションモデルのアンサンブルを利用する低コストMIAを提案する。
論文 参考訳(メタデータ) (2024-09-22T16:18:14Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - An Analysis of Initial Training Strategies for Exemplar-Free
Class-Incremental Learning [36.619804184427245]
CIL(Class-Incremental Learning)は、データストリームから分類モデルを構築することを目的としている。
破滅的な忘れ物のため、過去のクラスの例を保存できない場合、CILは特に困難である。
大量のデータに対する自己管理的な方法で事前訓練されたモデルの使用は、最近勢いを増している。
論文 参考訳(メタデータ) (2023-08-22T14:06:40Z) - Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - Towards Sustainable Self-supervised Learning [193.78876000005366]
本稿では,既存のマスク再構成ベースのSSLに2つのコンポーネントを導入し,Target-Enhanced Conditional (TEC)方式を提案する。
まず、ベースモデルから与えられたターゲットを強化するパッチリレーション強化ターゲットを提案し、ベースモデルからセマンティックリレーション知識を学ぶことを奨励する。
次に、新しいモデル予測を適応的に調整し、異なるベースモデルのターゲットに合わせる条件付きアダプタを提案する。
論文 参考訳(メタデータ) (2022-10-20T04:49:56Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。