論文の概要: Joint Semantic Knowledge Distillation and Masked Acoustic Modeling for Full-band Speech Restoration with Improved Intelligibility
- arxiv url: http://arxiv.org/abs/2409.09357v1
- Date: Sat, 14 Sep 2024 08:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:09:38.728401
- Title: Joint Semantic Knowledge Distillation and Masked Acoustic Modeling for Full-band Speech Restoration with Improved Intelligibility
- Title(参考訳): 完全広帯域音声再生のための統合意味的知識蒸留とマスド音響モデル
- Authors: Xiaoyu Liu, Xu Li, Joan Serrà, Santiago Pascual,
- Abstract要約: 音声の復元は、様々な歪みのセットを考慮して、高品質で知性の高い全帯域音声を復元することを目的としている。
MaskSRは、最近提案されたこのタスクのための生成モデルである。
提案モデルであるMaskSR2は,同一のMaskSRモデルキャパシティと推定時間を用いて,単語の誤り率を大幅に低減することを示した。
- 参考スコア(独自算出の注目度): 15.463932957443973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech restoration aims at restoring full-band speech with high quality and intelligibility, considering a diverse set of distortions. MaskSR is a recently proposed generative model for this task. As other models of its kind, MaskSR attains high quality but, as we show, intelligibility can be substantially improved. We do so by boosting the speech encoder component of MaskSR with predictions of semantic representations of the target speech, using a pre-trained self-supervised teacher model. Then, a masked language model is conditioned on the learned semantic features to predict acoustic tokens that encode low level spectral details of the target speech. We show that, with the same MaskSR model capacity and inference time, the proposed model, MaskSR2, significantly reduces the word error rate, a typical metric for intelligibility. MaskSR2 also achieves competitive word error rate among other models, while providing superior quality. An ablation study shows the effectiveness of various semantic representations.
- Abstract(参考訳): 音声の復元は、様々な歪みのセットを考慮して、高品質で知性の高い全帯域音声を復元することを目的としている。
MaskSRは、最近提案されたこのタスクのための生成モデルである。
この種の他のモデルと同様に、MaskSRは高品質であるが、私たちが示すように、知性は大幅に改善できる。
我々は、事前訓練された教師モデルを用いて、ターゲット音声の意味表現を予測して、MaskSRの音声エンコーダコンポーネントを強化する。
次に,対象音声の低レベルスペクトルを符号化する音響トークンを予測するために,学習した意味的特徴に基づいてマスク付き言語モデルを条件付けする。
提案モデルであるMaskSR2は,同一のMaskSRモデルキャパシティと推定時間を用いて,単語の誤り率を大幅に低減することを示した。
MaskSR2は他のモデルと競合するワードエラー率を実現し、優れた品質を提供する。
アブレーション研究は、様々な意味表現の有効性を示す。
関連論文リスト
- EH-MAM: Easy-to-Hard Masked Acoustic Modeling for Self-Supervised Speech Representation Learning [46.66166658067071]
EH-MAM (Easy-to-Hard Adaptive Masked Acoustic Modeling) は,音声表現学習のための新しい自己教師型学習手法である。
マスク付き音響モデリング(MAM)のための新しい選択的適応マスキング手法を提案する。
EH-MAMは、様々な低リソース音声認識とSUPERBベンチマークにおいて、最先端のベースラインを5%-10%上回っている。
論文 参考訳(メタデータ) (2024-10-17T02:59:22Z) - Quantifying the Role of Textual Predictability in Automatic Speech Recognition [13.306122574236232]
音声認識研究における長年の疑問は、エラーを音響をモデル化するモデルの能力にどのように属性付けるかである。
テキストの相対的予測可能性の関数として誤り率をモデル化する新しい手法を検証する。
本稿では,ASRの診断と改善において,このアプローチがいかに簡単に利用できるかを示す。
論文 参考訳(メタデータ) (2024-07-23T14:47:25Z) - MaskSR: Masked Language Model for Full-band Speech Restoration [7.015213589171985]
音声の復元は,様々な歪みが存在する場合に高品質な音声を復元することを目的としている。
雑音,リバーブ,クリップング,低帯域を考慮したフルバンド44.1kHz音声の復元が可能なマスク付き言語モデルであるMaskSRを提案する。
論文 参考訳(メタデータ) (2024-06-04T08:23:57Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。