論文の概要: Don't speak too fast: The impact of data bias on self-supervised speech
models
- arxiv url: http://arxiv.org/abs/2110.07957v1
- Date: Fri, 15 Oct 2021 09:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 14:42:38.350610
- Title: Don't speak too fast: The impact of data bias on self-supervised speech
models
- Title(参考訳): あまり速く話すな:データバイアスが自己教師型音声モデルに及ぼす影響
- Authors: Yen Meng, Yi-Hui Chou, Andy T. Liu, Hung-yi Lee
- Abstract要約: 自己教師型音声モデル(S3M)は、ASRのような下流の多くのタスクで成功している。
本研究では,事前学習データがどのようにS3Mに影響を与えるかを検討する。
- 参考スコア(独自算出の注目度): 60.48741903662486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised Speech Models (S3Ms) have been proven successful in many
speech downstream tasks, like ASR. However, how pre-training data affects S3Ms'
downstream behavior remains an unexplored issue. In this paper, we study how
pre-training data affects S3Ms by pre-training models on biased datasets
targeting different factors of speech, including gender, content, and prosody,
and evaluate these pre-trained S3Ms on selected downstream tasks in SUPERB
Benchmark. Our experiments show that S3Ms have tolerance toward gender bias.
Moreover, we find that the content of speech has little impact on the
performance of S3Ms across downstream tasks, but S3Ms do show a preference
toward a slower speech rate.
- Abstract(参考訳): 自己教師付き音声モデル(s3ms)は、asrなど多くの音声下流タスクで成功している。
しかしながら、データの事前トレーニングがs3msのダウンストリーム動作にどのように影響するかは、まだ未定の問題である。
本稿では,性別,コンテンツ,韻律など,音声のさまざまな要素を対象とするバイアス付きデータセットの事前学習モデルによるs3msへの影響について検討し,superbベンチマークで選択した下流タスクにおけるs3msの評価を行った。
実験の結果,S3Msは性差に耐性があることが判明した。
さらに、音声の内容は下流タスク間のS3Mの性能にはほとんど影響しないが、S3Mはより遅い発話率への嗜好を示す。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Self-Supervised Speech Representations are More Phonetic than Semantic [52.02626675137819]
自己教師付き音声モデル(S3Ms)は、音声応用の有効なバックボーンとなっている。
S3Msで符号化された単語レベルの言語特性のよりきめ細かい分析を求める。
本研究により,S3M表現は意味的類似性よりも連続的かつ顕著に音声的類似性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-12T20:04:44Z) - SCORE: Self-supervised Correspondence Fine-tuning for Improved Content
Representations [23.56580783289533]
本研究は,SSL音声表現をコンテンツ関連タスクに適用するために,自己教師付き対応(SCORE)ファインタニングというコスト効率の高いSSFT手法を提案する。
SCOREは、自動音声認識、音素認識、クエリ・バイ・サンプルタスクのための単一のGPU上で、わずか数時間の微調整(5時間)で、SUPERBベンチマークのバニラ HuBERT を上回っている。
論文 参考訳(メタデータ) (2024-03-10T16:57:51Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - What Do Self-Supervised Speech Models Know About Words? [23.163029143563893]
自己教師型音声モデル(S3Ms)はここ数年で導入され、様々な音声タスクの性能とデータ効率が改善されている。
最近の研究は、S3Mが音声情報や話者情報などの特定の特性をエンコードする方法の分析を始めている。
我々は,S3Msで符号化されたセグメントレベルの言語特性を研究するために,軽量な解析手法を用いた。
論文 参考訳(メタデータ) (2023-06-30T22:36:41Z) - A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit [2.969929079464237]
SpecAugmentは、元のデータセット上での HuBERT と wav2vec のパフォーマンスをわずかに改善する。
また,Gaussian Noise and Speed Perturbationデータセットを用いてトレーニングしたモデルは,拡張テストセットでテストした場合,より堅牢であることを示す。
論文 参考訳(メタデータ) (2023-02-27T20:46:36Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - A Study of Gender Impact in Self-supervised Models for Speech-to-Text
Systems [25.468558523679363]
我々は、事前学習データにおいて、性別固有のwav2vec 2.0モデルを、性別バランスの異なるモデルと比較し、比較する。
エンドツーエンドのASRシステムを微調整する前に、性別別事前学習を用いて、全体的なパフォーマンスを低く観察する。
論文 参考訳(メタデータ) (2022-04-04T11:28:19Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Robustness of end-to-end Automatic Speech Recognition Models -- A Case
Study using Mozilla DeepSpeech [2.715884199292287]
多くの性能数値が予想されるエラー率を過小評価していると我々は主張する。
我々は、選択バイアス、性別、およびコンテンツ、音声、記録条件の重複(トレーニングとテストデータ間の重複)を制御する実験を行う。
論文 参考訳(メタデータ) (2021-05-08T16:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。