論文の概要: LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech
- arxiv url: http://arxiv.org/abs/2104.11462v1
- Date: Fri, 23 Apr 2021 08:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:00:49.416277
- Title: LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech
- Title(参考訳): LeBenchmark: 自己教師付き表現学習を音声から評価するための再現可能なフレームワーク
- Authors: Solene Evain, Ha Nguyen, Hang Le, Marcely Zanon Boito, Salima
Mdhaffar, Sina Alisamir, Ziyi Tong, Natalia Tomashenko, Marco Dinarelli,
Titouan Parcollet, Alexandre Allauzen, Yannick Esteve, Benjamin Lecouteux,
Francois Portet, Solange Rossato, Fabien Ringeval, Didier Schwab and Laurent
Besacier
- Abstract要約: 膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
- 参考スコア(独自算出の注目度): 63.84741259993937
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-Supervised Learning (SSL) using huge unlabeled data has been
successfully explored for image and natural language processing. Recent works
also investigated SSL from speech. They were notably successful to improve
performance on downstream tasks such as automatic speech recognition (ASR).
While these works suggest it is possible to reduce dependence on labeled data
for building efficient speech systems, their evaluation was mostly made on ASR
and using multiple and heterogeneous experimental settings (most of them for
English). This renders difficult the objective comparison between SSL
approaches and the evaluation of their impact on building speech systems. In
this paper, we propose LeBenchmark: a reproducible framework for assessing SSL
from speech. It not only includes ASR (high and low resource) tasks but also
spoken language understanding, speech translation and emotion recognition. We
also target speech technologies in a language different than English: French.
SSL models of different sizes are trained from carefully sourced and documented
datasets. Experiments show that SSL is beneficial for most but not all tasks
which confirms the need for exhaustive and reliable benchmarks to evaluate its
real impact. LeBenchmark is shared with the scientific community for
reproducible research in SSL from speech.
- Abstract(参考訳): 膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像および自然言語処理に成功している。
近年では音声からのSSLも検討されている。
これらは、自動音声認識(asr)などの下流タスクのパフォーマンス向上に成功している。
これらの研究は、効率的な音声システムを構築するためのラベル付きデータへの依存を減らすことができることを示唆するが、その評価は、主にASRと多種多様な実験的設定を用いて行われた。
これにより、sslアプローチと音声システム構築への影響評価との客観的比較が困難になる。
本稿では,音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
ASR (High and Low Resource)タスクだけでなく、音声言語理解、音声翻訳、感情認識も含んでいる。
また、英語、フランス語とは異なる言語で音声技術をターゲットにしています。
異なるサイズのSSLモデルは、慎重にソースとドキュメント化されたデータセットからトレーニングされる。
実験によると、SSLはその本当の影響を評価するために、徹底的で信頼性の高いベンチマークの必要性を確認するすべてのタスクに対して有益である。
LeBenchmarkはSSLにおける音声からの再現可能な研究のために科学コミュニティと共有されている。
関連論文リスト
- Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect [11.013934239276036]
自己教師付き学習(SSL)によって事前訓練された音声エンコーダは、様々な下流タスクにおいて顕著な性能を示した。
本稿では,低音源のチュニジア・アラビア方言の文脈におけるSSLアプローチの有効性を比較することで貢献する。
論文 参考訳(メタデータ) (2024-07-05T14:21:36Z) - SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge? [45.901645659694935]
音声表現のための自己教師付き学習(SSL)は、様々な下流タスクにうまく適用されている。
本稿では,音声SSL技術が言語知識をうまく捉えることができるかどうかを明らかにすることを目的とする。
論文 参考訳(メタデータ) (2023-06-14T09:04:29Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Why does Self-Supervised Learning for Speech Recognition Benefit Speaker
Recognition? [86.53044183309824]
話者関連課題における自己教師型学習の成功につながる要因について検討する。
Voxceleb-1データセットにおける実験結果から,SVタスクに対するSSLの利点は,マスクによる予測損失,データスケール,モデルサイズの組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T08:35:57Z) - Combining Spectral and Self-Supervised Features for Low Resource Speech
Recognition and Translation [27.857955394020475]
自己教師付き学習(SSL)モデルは、様々なディープラーニングベースの音声タスクにうまく適用されている。
SSL表現の品質は、SSLトレーニングドメインとターゲットデータドメインの関連性に大きく依存します。
SFとSSLの表現を組み合わせるための学習可能かつ解釈可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-05T20:09:15Z) - Analyzing the factors affecting usefulness of Self-Supervised
Pre-trained Representations for Speech Recognition [1.0705399532413615]
高レベルの音声表現を学習するための自己教師付き学習(SSL)は、音声認識システムを構築するための一般的なアプローチである。
ドメイン、言語、データセットサイズ、および上流のトレーニング済みSSLデータに対するその他の側面が、最終性能の低リソースのASRタスクに与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-31T11:48:24Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。