論文の概要: The Effect of Batch Size on Contrastive Self-Supervised Speech
Representation Learning
- arxiv url: http://arxiv.org/abs/2402.13723v1
- Date: Wed, 21 Feb 2024 11:35:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:42:45.785780
- Title: The Effect of Batch Size on Contrastive Self-Supervised Speech
Representation Learning
- Title(参考訳): コントラスト型自己教師付き音声表現学習におけるバッチサイズの影響
- Authors: Nik Vaessen, David A. van Leeuwen
- Abstract要約: 一定量のイテレーションにおいて、より大きなバッチサイズが事前訓練されたモデルを改善することを示します。
次に、事前学習モデルの品質は、主に訓練中に見られる音声データ量に依存することを示す。
- 参考スコア(独自算出の注目度): 8.93449755281201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models in speech are often trained using many GPUs, which
implicitly leads to large effective batch sizes. In this paper we study the
effect of batch size on pre-training, both in terms of statistics that can be
monitored during training, and in the effect on the performance of a downstream
fine-tuning task. By using batch sizes varying from 87.5 seconds to 80 minutes
of speech we show that, for a fixed amount of iterations, larger batch sizes
result in better pre-trained models. However, there is lower limit for
stability, and an upper limit for effectiveness. We then show that the quality
of the pre-trained model depends mainly on the amount of speech data seen
during training, i.e., on the product of batch size and number of iterations.
All results are produced with an independent implementation of the wav2vec 2.0
architecture, which to a large extent reproduces the results of the original
work (arXiv:2006.11477). Our extensions can help researchers choose effective
operating conditions when studying self-supervised learning in speech, and
hints towards benchmarking self-supervision with a fixed amount of seen data.
Code and model checkpoints are available at
https://github.com/nikvaessen/w2v2-batch-size.
- Abstract(参考訳): 音声の基礎モデルは、しばしば多くのgpuを使って訓練され、暗黙的に大きな効果的なバッチサイズをもたらす。
本稿では, プレトレーニングにおけるバッチサイズの影響について, トレーニング中に監視できる統計量, 下流の微調整タスクの性能に与える影響について検討する。
バッチサイズを87.5秒から80分に変化させることで、一定量のイテレーションにおいて、より大きなバッチサイズが事前訓練されたモデルを改善することを示す。
しかし、安定性には低い限界があり、有効性には上限がある。
次に,事前学習モデルの質は,訓練中の音声データ量,すなわちバッチサイズと反復回数の積に依存することを示した。
すべての結果はwav2vec 2.0アーキテクチャの独立した実装で作成され、オリジナル作品の結果をかなり再現している(arxiv:2006.11477)。
我々の拡張は、研究者が音声における自己教師付き学習を研究する際に有効な操作条件を選択するのに役立つ。
コードとモデルチェックポイントはhttps://github.com/nikvaessen/w2v2-batch-sizeで確認できる。
関連論文リスト
- Evaluating Large Language Models for Generalization and Robustness via
Data Compression [19.17779153163157]
本稿では,データ圧縮に基づく評価手法を提案する。
具体的には、2017年から2023年までの83ヶ月にわたる包括的なテストデータを収集し、モデルのトレーニングデータ遮断に従って、データをトレーニングとテスト期間に分割します。
実験では、ウィキペディア、ニュース記事、コード、arXiv論文、マルチモーダルデータなど、様々な規模の大言語モデル14を検証した。
論文 参考訳(メタデータ) (2024-02-01T18:56:18Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - On Batching Variable Size Inputs for Training End-to-End Speech
Enhancement Systems [1.5469452301122175]
ニューラルネットワークに基づく音声強調システムの性能はモデルアーキテクチャの影響を受けている。
計算リソースの利用は、主にバッチサイズなどのトレーニングパラメータの影響を受けます。
論文 参考訳(メタデータ) (2023-01-25T13:45:02Z) - Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文 参考訳(メタデータ) (2023-01-18T00:22:49Z) - Could Giant Pretrained Image Models Extract Universal Representations? [94.97056702288317]
本稿では,多種多様なコンピュータビジョンタスクに適用した凍結事前学習モデルについて述べる。
私たちの研究は、この凍結した設定にどのような事前学習タスクが最適か、凍結した設定を様々な下流タスクに柔軟にする方法、より大きなモデルサイズの影響について、質問に答えています。
論文 参考訳(メタデータ) (2022-11-03T17:57:10Z) - The Diminishing Returns of Masked Language Models to Science [0.7549732580284559]
トレーニングデータ,モデルサイズ,事前学習,微調整時間が下流の12の科学的課題に与える影響を評価する。
モデルのサイズ、トレーニングデータ、計算時間の増加が、必ずしも大幅な改善につながるとは限らないことが分かっています。
論文 参考訳(メタデータ) (2022-05-23T14:35:08Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。