Fugu-MT 論文翻訳(概要): Open Implementation and Study of BEST-RQ for Speech Processing

論文の概要: Open Implementation and Study of BEST-RQ for Speech Processing

arxiv url: http://arxiv.org/abs/2405.04296v2
Date: Wed, 4 Sep 2024 10:23:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-07 03:12:50.056457
Title: Open Implementation and Study of BEST-RQ for Speech Processing
Title（参考訳）: 音声処理のためのBEST-RQのオープン実装と検討
Authors: Ryan Whetten, Titouan Parcollet, Marco Dinarelli, Yannick Estève,
Abstract要約: ランダム投影量子化器(BEST-RQ)を用いたBERTに基づく音声事前学習は、音声認識(ASR)において優れた性能を示した。ランダム・プロジェクション・量子化器は、トレーニング時間を2倍以上削減しつつ、wav2vec 2.0と同様のダウンストリーム性能が得られることを示す。
参考スコア（独自算出の注目度）: 25.678292575349648
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-Supervised Learning (SSL) has proven to be useful in various speech tasks. However, these methods are generally very demanding in terms of data, memory, and computational resources. BERT-based Speech pre-Training with Random-projection Quantizer (BEST-RQ), is an SSL method that has shown great performance on Automatic Speech Recognition (ASR) while being simpler than other SSL methods, such as wav2vec 2.0. Despite BEST-RQ's great performance, details are lacking in the original paper, such as the amount of GPU/TPU hours used in pre-training, and there is no official easy-to-use open-source implementation. Furthermore, BEST-RQ has not been evaluated on other downstream tasks aside from ASR and speech translation. In this work, we describe a re-implementation of a Random-projection quantizer and perform a preliminary study with a comparison to wav2vec 2.0 on four downstream tasks. We discuss the details and differences of our implementation. We show that a random projection quantizer can achieve similar downstream performance as wav2vec 2.0 while decreasing training time by over a factor of two.
Abstract（参考訳）: 自己監督学習(SSL)は、様々な音声タスクにおいて有用であることが証明されている。しかし、これらの手法は一般にデータ、メモリ、計算資源の点で非常に要求される。 BERT-based Speech pre-Training with Random-Projection Quantizer (BEST-RQ) は、自動音声認識(ASR)において、wav2vec 2.0のような他のSSLメソッドよりもシンプルでありながら、優れた性能を示すSSLメソッドである。 BEST-RQの優れたパフォーマンスにもかかわらず、事前トレーニングで使用されるGPU/TPU時間の量など、オリジナルの論文には詳細が欠けている。さらに、BEST-RQは、ASRや音声翻訳以外の下流タスクでは評価されていない。本稿では,ランダム射影量化器の再実装について述べるとともに,4つの下流タスクにおけるwav2vec 2.0との比較による予備的検討を行う。実装の詳細と相違について論じる。ランダム・プロジェクション・量子化器は、トレーニング時間を2倍以上削減しつつ、wav2vec 2.0と同様のダウンストリーム性能が得られることを示す。

関連論文リスト

NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training [17.54331997432642]
ランダム投影量化器(NEST-RQ)を用いた次のトークン予測に基づく事前学習手法を提案する。 NEST-RQでは、左コンテキストのみの因果エンコーダを採用し、トレーニングタスクとして次のトークン予測(NTP)を使用している。大規模データセットでは、BEST-RQと比較して、提案したNEST-RQは、非ストリーミング自動音声認識(ASR)における同等のパフォーマンスと、ストリーミングASRにおけるより良いパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-13T09:48:11Z)
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。 Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文参考訳（メタデータ） (2024-08-09T14:43:56Z)
Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech Representation Learning [2.120033481952703]
音声ベースのSSLモデルは計算コストの観点から共通のジレンマに直面している。 Fast-HuBERTは、Librispeech 960hベンチマークで8V100GPUで1.1日でトレーニングできる。
論文参考訳（メタデータ） (2023-09-25T04:07:34Z)
RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文参考訳（メタデータ） (2023-05-24T19:45:56Z)
UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。第1パスデコーダのサブワード予測によりモデル性能を向上させる。提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文参考訳（メタデータ） (2022-12-15T18:58:28Z)
DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-09T17:46:22Z)
Self-supervised Learning with Random-projection Quantizer for Speech Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文参考訳（メタデータ） (2022-02-03T21:29:04Z)
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文参考訳（メタデータ） (2021-10-26T17:55:19Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition [78.67749936030219]
Prune-Adjust-Re-Prune (PARP) は、より優れたASR性能を実現するための細工品を発見する。低リソースの英語および多言語ASRの実験では、事前訓練された音声SSLにスパースワークが存在する。
論文参考訳（メタデータ） (2021-06-10T17:32:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。