論文の概要: Linear-Complexity Self-Supervised Learning for Speech Processing
- arxiv url: http://arxiv.org/abs/2407.13377v1
- Date: Thu, 18 Jul 2024 10:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:40:38.553144
- Title: Linear-Complexity Self-Supervised Learning for Speech Processing
- Title(参考訳): 音声処理のための線形複雑自己教師付き学習
- Authors: Shucong Zhang, Titouan Parcollet, Rogier van Dalen, Sourav Bhattacharya,
- Abstract要約: 自己教師付き学習(SSL)モデルは、通常、数十のハイエンドGPUで数週間の事前トレーニングを必要とする。
本稿では,SSLのための線形複雑コンテキストエンコーダを初めて検討する。
- 参考スコア(独自算出の注目度): 17.360059094663182
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learning (SSL) models usually require weeks of pre-training with dozens of high-end GPUs. These models typically have a multi-headed self-attention (MHSA) context encoder. However, MHSA takes quadratic time and space in the input length, contributing to the high pre-training cost. Linear-complexity alternatives to MHSA have been proposed. For instance, in supervised training, the SummaryMixing model is the first to outperform MHSA across multiple speech processing tasks. However, these cheaper alternatives have not been explored for SSL yet. This paper studies a linear-complexity context encoder for SSL for the first time. With better or equivalent performance for the downstream tasks of the MP3S benchmark, SummaryMixing reduces the pre-training time and peak VRAM of wav2vec 2.0 model by 18% and by 23%, respectively, leading to the pre-training of a 155M wav2vec 2.0 model finished within one week with 4 Tesla A100 GPUs. Code is available at https://github.com/SamsungLabs/SummaryMixing.
- Abstract(参考訳): 自己教師付き学習(SSL)モデルは、通常、数十のハイエンドGPUで数週間の事前トレーニングを必要とする。
これらのモデルは通常、MHSA(Multi-headed self-attention)コンテキストエンコーダを持つ。
しかし、MHSAは入力長の2次時間と空間を要し、事前学習のコストが高い。
MHSAの線形複雑度代替案が提案されている。
例えば、教師付きトレーニングでは、SlideMixingモデルは複数の音声処理タスクでMHSAを初めて上回ります。
しかし、これらの安価な代替手段はまだSSLについては検討されていない。
本稿では,SSLのための線形複雑コンテキストエンコーダを初めて検討する。
MP3Sベンチマークの下流タスクのより良いあるいは同等のパフォーマンスにより、SlideMixingは、wav2vec 2.0モデルの事前トレーニング時間とピークVRAMをそれぞれ18%、ピークVRAMを23%削減し、145Mのwav2vec 2.0モデルの事前トレーニングは4Tesla A100 GPUで1週間以内に完了した。
コードはhttps://github.com/SamsungLabs/SummaryMixing.comで入手できる。
関連論文リスト
- Open Implementation and Study of BEST-RQ for Speech Processing [25.678292575349648]
ランダム投影量子化器(BEST-RQ)を用いたBERTに基づく音声事前学習は、音声認識(ASR)において優れた性能を示した。
ランダム・プロジェクション・量子化器は、トレーニング時間を2倍以上削減しつつ、wav2vec 2.0と同様のダウンストリーム性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-07T13:11:37Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - DailyMAE: Towards Pretraining Masked Autoencoders in One Day [37.206816999538496]
マスク付き画像モデリング(MIM)は、ラベルのないデータからデータ表現を学習する上での有効性に注目されている。
本研究では,データロードボトルネックの軽減を目的としたMIMベースのSSLの効率的なトレーニングレシピを提案する。
このライブラリは,ImageNet 1Kデータセット上のMAE-Base/16モデルのトレーニングを,わずか18時間で800エポックで行うことができる。
論文 参考訳(メタデータ) (2024-03-31T00:59:10Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech [70.3307853082527]
この研究は、SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介している。
文書化され、大規模で、異質なコーパスを含み、14,000時間に及ぶ異質なスピーチがある。
コミュニティが共有する2600万から10億の学習可能なパラメータを含む、トレーニング済みのSSLwav2vec 2.0モデルが10種類含まれている。
論文 参考訳(メタデータ) (2023-09-11T14:13:09Z) - Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection [57.537583869961885]
自己教師型音声モデルは、偽音声検出において急速に発展している研究トピックである。
我々は、wav2vec2モデルにローランク適応(LoRA)を適用し、トレーニング済みモデルの重みを凍結し、トランスアーキテクチャの各層にトレーニング可能なランク分解行列を注入する。
317Mのトレーニングパラメータを含むwav2vec2モデルのAdamの微調整と比較して、LoRAはトレーニング可能なパラメータの数を198倍減らして同様の性能を実現した。
論文 参考訳(メタデータ) (2023-06-09T01:43:41Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Match to Win: Analysing Sequences Lengths for Efficient Self-supervised
Learning in Speech and Audio [19.865050806327147]
自己教師型学習は、音声および音声関連アプリケーションにおいて不可欠であることが証明されている。
本稿では、特定配列長の異なるSSL事前トレーニングに関する最初の実証的研究について述べる。
ショートシーケンスでのトレーニングは、すべてのタスクで満足なパフォーマンスを維持しながら、リソースコストを劇的に削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T16:35:42Z) - USB: A Unified Semi-supervised Learning Benchmark [125.25384569880525]
半教師付き学習(SSL)は、大量のラベルのないデータを活用して、限定されたラベル付きサンプルを増やすことにより、モデルの一般化を改善する。
これまでの研究は通常、深層ニューラルネットワークをゼロから訓練するが、それは時間がかかり、環境に優しいものではない。
我々は、15の多様な、挑戦的で包括的なタスクを選択して、統一SSLベンチマーク(USB)を構築します。
論文 参考訳(メタデータ) (2022-08-12T15:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。