論文の概要: Cocktail HuBERT: Generalized Self-Supervised Pre-training for Mixture
and Single-Source Speech
- arxiv url: http://arxiv.org/abs/2303.11131v1
- Date: Mon, 20 Mar 2023 14:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 15:20:09.032361
- Title: Cocktail HuBERT: Generalized Self-Supervised Pre-training for Mixture
and Single-Source Speech
- Title(参考訳): Cocktail HuBERT: 混合音声と単一音源音声のための一般化自己監督事前学習
- Authors: Maryam Fazel-Zarandi and Wei-Ning Hsu
- Abstract要約: Cocktail HuBERTは、マスク付き擬似音源分離目的を用いて混合音声を一般化する自己教師型学習フレームワークである。
ASRでは69%がWERで、ダイアリゼーションでは31%がDERで、SUPERBでは単一および複数話者タスクで競合する。
- 参考スコア(独自算出の注目度): 19.803599796781928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning leverages unlabeled data effectively, improving
label efficiency and generalization to domains without labeled data. While
recent work has studied generalization to more acoustic/linguistic domains,
languages, and modalities, these investigations are limited to single-source
speech with one primary speaker in the recording. This paper presents Cocktail
HuBERT, a self-supervised learning framework that generalizes to mixture speech
using a masked pseudo source separation objective. This objective encourages
the model to identify the number of sources, separate and understand the
context, and infer the content of masked regions represented as discovered
units. Cocktail HuBERT outperforms state-of-the-art results with 69% lower WER
on multi-speaker ASR, 31% lower DER on diarization, and is competitive on
single- and multi-speaker tasks from SUPERB.
- Abstract(参考訳): 自己教師付き学習はラベル付きデータを効果的に活用し、ラベル付きデータのないドメインへのラベルの効率と一般化を改善する。
近年の研究では、より音響的/言語的領域、言語、モダリティへの一般化が研究されているが、これらの調査は録音に1つの主話者を持つ単一ソース音声に限られている。
本稿では,マスク付き擬似音源分離目標を用いた混合音声を一般化する自己教師型学習フレームワークであるCocktail HuBERTを提案する。
この目的は、モデルが情報源の数を識別し、コンテキストを分離し、理解し、発見単位として表されるマスキング領域の内容を推測することを奨励する。
Cocktail HuBERTは、マルチスピーカASRでは69%、ダイアリゼーションでは31%、SUPERBでは単一および複数話者タスクでは競争力がある。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT [10.18337180909434]
非転写音声から意味のある特徴を抽出するためには,自己教師付き音声表現学習が不可欠である。
本稿では,音節単位を話者情報から分離する,音声のみの自己教師型微調整手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T09:07:08Z) - Spatial HuBERT: Self-supervised Spatial Speech Representation Learning
for a Single Talker from Multi-channel Audio [7.808211269929968]
本稿では,自己教師型音声表現モデルであるSpatial HuBERTを提案する。
一つの話者に関連する音響情報と空間情報の両方を、潜在的にノイズの多い環境で学習する。
様々な空間的下流タスクにおいて、最先端の単一チャネル音声表現よりも優れた表現を学習する。
論文 参考訳(メタデータ) (2023-10-17T01:31:59Z) - HuBERTopic: Enhancing Semantic Representation of HuBERT through
Self-supervision Utilizing Topic Model [62.995175485416]
本稿では,HuBERTのセマンティック表現を豊かにするための新しいアプローチを提案する。
トピックラベルを教師として使用することにより、HuBERTに補助的なトピック分類タスクを追加する。
実験の結果,本手法は,ほとんどのタスクにおいて,ベースラインと同等あるいは優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-06T02:19:09Z) - Quantitative Evidence on Overlooked Aspects of Enrollment Speaker
Embeddings for Target Speaker Separation [14.013049471563141]
単一チャネル話者分離は、話者の登録発話を与えられた複数の話者の混合から話者の声を抽出することを目的としている。
典型的なディープラーニングTSSフレームワークは、登録話者埋め込みを取得する上流モデルと、埋め込み上で分離条件を実行する下流モデルで構成されている。
論文 参考訳(メタデータ) (2022-10-23T07:08:46Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。