論文の概要: MaskSR: Masked Language Model for Full-band Speech Restoration
- arxiv url: http://arxiv.org/abs/2406.02092v1
- Date: Tue, 4 Jun 2024 08:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:21:12.742046
- Title: MaskSR: Masked Language Model for Full-band Speech Restoration
- Title(参考訳): MaskSR:全帯域音声復元のためのマスクド言語モデル
- Authors: Xu Li, Qirui Wang, Xiaoyu Liu,
- Abstract要約: 音声の復元は,様々な歪みが存在する場合に高品質な音声を復元することを目的としている。
雑音,リバーブ,クリップング,低帯域を考慮したフルバンド44.1kHz音声の復元が可能なマスク付き言語モデルであるMaskSRを提案する。
- 参考スコア(独自算出の注目度): 7.015213589171985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech restoration aims at restoring high quality speech in the presence of a diverse set of distortions. Although several deep learning paradigms have been studied for this task, the power of the recently emerging language models has not been fully explored. In this paper, we propose MaskSR, a masked language model capable of restoring full-band 44.1 kHz speech jointly considering noise, reverb, clipping, and low bandwidth. MaskSR works with discrete acoustic tokens extracted using a pre-trained neural codec. During training, MaskSR is optimized to predict randomly masked tokens extracted from the high quality target speech, conditioned on the corrupted speech with various distortions. During inference, MaskSR reconstructs the target speech tokens with efficient iterative sampling. Extensive experiments show that MaskSR obtains competitive results on both the full-band speech restoration task and also on sub-tasks compared with a wide range of models.
- Abstract(参考訳): 音声の復元は,様々な歪みが存在する場合に高品質な音声を復元することを目的としている。
この課題のためにいくつかのディープラーニングパラダイムが研究されているが、最近登場した言語モデルのパワーは十分に研究されていない。
本稿では,雑音,リバーブ,クリップング,低帯域を考慮したフルバンド44.1kHz音声の復元が可能なマスク付き言語モデルMaskSRを提案する。
MaskSRは、事前訓練されたニューラルコーデックを用いて抽出された離散音響トークンで動作する。
トレーニング中、MaskSRは、高品質なターゲット音声から抽出されたランダムなマスク付きトークンを様々な歪みで条件付きで予測するように最適化されている。
推論中、MaskSRは効率的な反復サンプリングでターゲットの音声トークンを再構成する。
広汎な実験により,MaskSRは全帯域音声復元タスクとサブタスクの両方において,幅広いモデルと比較して競争結果が得られることがわかった。
関連論文リスト
- Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach [3.89476785897726]
AV特徴を組み込んだシーケンス・ツー・シーケンス(seq2seq)音声イン・ペイントモデルを導入,研究する。
提案手法は,AV音声のインペイント手法を,音声データと視覚データの両方が混在するシナリオに拡張する。
論文 参考訳(メタデータ) (2024-06-02T23:51:43Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Miipher: A Robust Speech Restoration Model Integrating Self-Supervised
Speech and Text Representations [51.89856133895233]
音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。
本研究では、Miipherと呼ばれるロバストなSRモデルを提案し、新しいSRアプリケーションにMiipherを適用する。
SRモデルを様々な劣化に対して堅牢にするために、入力特徴としてw2v-BERTから抽出した音声表現と、PnG-BERTを介して書き起こしから抽出したテキスト表現を言語条件付けとして使用する。
論文 参考訳(メタデータ) (2023-03-03T01:57:16Z) - Simulating realistic speech overlaps improves multi-talker ASR [36.39193360559079]
本稿では,複数話者の重なり合う音声を現実的な音声重なりでシミュレートする改良手法を提案する。
この表現により、N-gramのような統計言語モデルに基づいて、実際の会話から重なり合う音声パターンを学習することができる。
実験では,提案手法を用いて学習したマルチストーカーASRモデルを用いて,複数データセット間の単語誤り率を一貫した改善を行った。
論文 参考訳(メタデータ) (2022-10-27T18:29:39Z) - Improving Speech Representation Learning via Speech-level and
Phoneme-level Masking Approach [29.962519978925236]
音声レベルのマスキングと音素レベルのマスキングの2種類のマスキング手法を提案する。
これら2つの手法を用いて事前学習を行い、音素分類と話者認識の2つの下流課題について評価した。
論文 参考訳(メタデータ) (2022-10-25T07:26:47Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Multimodal Speech Recognition with Unstructured Audio Masking [49.01826387664443]
我々はモデルトレーニング中にRandWordMaskと呼ばれるより現実的なマスキングシナリオをシミュレートする。
Flickr 8K Audio Captions Corpusで行った実験では、マルチモーダルASRが様々な種類のマスキング語を復元するために一般化できることが示されている。
分析の結果,音声信号が破損した場合に,我々のモデルが視覚信号に対応できることが判明した。
論文 参考訳(メタデータ) (2020-10-16T21:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。