論文の概要: Guided Variational Autoencoder for Speech Enhancement With a Supervised
Classifier
- arxiv url: http://arxiv.org/abs/2102.06454v1
- Date: Fri, 12 Feb 2021 11:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 12:56:53.389126
- Title: Guided Variational Autoencoder for Speech Enhancement With a Supervised
Classifier
- Title(参考訳): 教師付き分類器を用いた音声強調のための変分オートエンコーダ
- Authors: Guillaume Carbajal, Julius Richter, Timo Gerkmann
- Abstract要約: 本研究では,雑音音声を別々に訓練した教師付き分類器を用いて,可変オートエンコーダの導出を提案する。
推定ラベルは、音声信号を記述する高レベルなカテゴリー変数である。
本手法は,騒音環境の異なる実記録において,異なる種類のラベルを用いて評価する。
- 参考スコア(独自算出の注目度): 20.28217079480463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, variational autoencoders have been successfully used to learn a
probabilistic prior over speech signals, which is then used to perform speech
enhancement. However, variational autoencoders are trained on clean speech
only, which results in a limited ability of extracting the speech signal from
noisy speech compared to supervised approaches. In this paper, we propose to
guide the variational autoencoder with a supervised classifier separately
trained on noisy speech. The estimated label is a high-level categorical
variable describing the speech signal (e.g. speech activity) allowing for a
more informed latent distribution compared to the standard variational
autoencoder. We evaluate our method with different types of labels on real
recordings of different noisy environments. Provided that the label better
informs the latent distribution and that the classifier achieves good
performance, the proposed approach outperforms the standard variational
autoencoder and a conventional neural network-based supervised approach.
- Abstract(参考訳): 近年、変分オートエンコーダは音声信号よりも先に確率的に学習し、音声強調を行うのに使われている。
しかし、可変オートエンコーダはクリーンな音声でのみ訓練され、教師付きアプローチと比較してノイズの多い音声から音声信号を抽出する能力は限られている。
本稿では,雑音音声で個別に訓練された教師付き分類器を用いて,変分オートエンコーダの案内を行う。
推定ラベルは、音声信号(例えば)を記述する高レベルのカテゴリ変数である。
発話活動) 標準の変分オートエンコーダと比較して、よりインフォメーションな潜時分布を可能にする。
本手法は,騒音環境の異なる実記録において,異なる種類のラベルを用いて評価する。
ラベルが潜伏分布をよりよく知らせ、分類器が優れた性能を発揮することを条件として、提案手法は標準変分オートエンコーダと従来のニューラルネットワークに基づく教師付きアプローチより優れている。
関連論文リスト
- Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - Improving the Intent Classification accuracy in Noisy Environment [9.447108578893639]
本稿では,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対して,環境騒音とその関連ノイズ低減手法について検討する。
この課題に対して,音声強調処理を用いることで,雑音条件下での分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-12T06:11:44Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Disentanglement Learning for Variational Autoencoders Applied to
Audio-Visual Speech Enhancement [20.28217079480463]
本稿では,ラベルを他の潜伏変数から切り離すための変分オートエンコーダの対角学習手法を提案する。
視覚的データから推定した音声活動ラベルを音声強調に用いる場合,提案手法の利点を示す。
論文 参考訳(メタデータ) (2021-05-19T07:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。