論文の概要: Disentanglement Learning for Variational Autoencoders Applied to
Audio-Visual Speech Enhancement
- arxiv url: http://arxiv.org/abs/2105.08970v1
- Date: Wed, 19 May 2021 07:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:37:59.487324
- Title: Disentanglement Learning for Variational Autoencoders Applied to
Audio-Visual Speech Enhancement
- Title(参考訳): 変分オートエンコーダのアンサングル学習による音声・映像音声強調
- Authors: Guillaume Carbajal, Julius Richter, Timo Gerkmann
- Abstract要約: 本稿では,ラベルを他の潜伏変数から切り離すための変分オートエンコーダの対角学習手法を提案する。
視覚的データから推定した音声活動ラベルを音声強調に用いる場合,提案手法の利点を示す。
- 参考スコア(独自算出の注目度): 20.28217079480463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the standard variational autoencoder has been successfully used to
learn a probabilistic prior over speech signals, which is then used to perform
speech enhancement. Variational autoencoders have then been conditioned on a
label describing a high-level speech attribute (e.g. speech activity) that
allows for a more explicit control of speech generation. However, the label is
not guaranteed to be disentangled from the other latent variables, which
results in limited performance improvements compared to the standard
variational autoencoder. In this work, we propose to use an adversarial
training scheme for variational autoencoders to disentangle the label from the
other latent variables. At training, we use a discriminator that competes with
the encoder of the variational autoencoder. Simultaneously, we also use an
additional encoder that estimates the label for the decoder of the variational
autoencoder, which proves to be crucial to learn disentanglement. We show the
benefit of the proposed disentanglement learning when a voice activity label,
estimated from visual data, is used for speech enhancement.
- Abstract(参考訳): 近年、標準変分オートエンコーダは、音声信号よりも先に確率的に学習し、音声強調を行うのに使われている。
変分オートエンコーダは、ハイレベルな音声属性(例えば、)を示すラベルで条件付けされる。
音声活動) 音声生成をより明示的な制御を可能にする。
しかし、ラベルが他の潜在変数から切り離されることは保証されておらず、標準の変分オートエンコーダに比べて性能が大幅に向上する。
本研究では,可変オートエンコーダに対して,ラベルを他の潜在変数から切り離すための逆訓練方式を提案する。
トレーニングでは、変分オートエンコーダのエンコーダと競合する判別器を使用します。
同時に、変分オートエンコーダのデコーダのラベルを推定する追加のエンコーダも使用しています。
視覚データから推定した音声活動ラベルを音声強調に用いた場合,提案する不等角化学習の利点を示す。
関連論文リスト
- Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement [1.4037575966075835]
生のオーディオの1Dフィルターは訓練が困難で、しばしば不安定に悩まされる。
これらの問題は、理論駆動とデータ駆動のアプローチを組み合わせたハイブリッドソリューションによって解決される。
論文 参考訳(メタデータ) (2024-08-30T15:49:31Z) - Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - RepCodec: A Speech Representation Codec for Speech Tokenization [21.60885344868044]
RepCodecは意味的音声トークン化のための新しい表現である。
RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-31T23:26:10Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Linguistic-Enhanced Transformer with CTC Embedding for Speech
Recognition [29.1423215212174]
関節CTC-Attention モデルの最近の動向は自動音声認識(ASR)において顕著に改善されている
本稿では,訓練中にデコーダに改良されたCTC情報を導入する言語拡張トランスフォーマを提案する。
AISHELL-1音声コーパスの実験では、文字誤り率(CER)は7%まで相対的に減少している。
論文 参考訳(メタデータ) (2022-10-25T08:12:59Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Guided Variational Autoencoder for Speech Enhancement With a Supervised
Classifier [20.28217079480463]
本研究では,雑音音声を別々に訓練した教師付き分類器を用いて,可変オートエンコーダの導出を提案する。
推定ラベルは、音声信号を記述する高レベルなカテゴリー変数である。
本手法は,騒音環境の異なる実記録において,異なる種類のラベルを用いて評価する。
論文 参考訳(メタデータ) (2021-02-12T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。