論文の概要: End-To-End Dilated Variational Autoencoder with Bottleneck
Discriminative Loss for Sound Morphing -- A Preliminary Study
- arxiv url: http://arxiv.org/abs/2011.09744v1
- Date: Thu, 19 Nov 2020 09:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 22:00:44.806478
- Title: End-To-End Dilated Variational Autoencoder with Bottleneck
Discriminative Loss for Sound Morphing -- A Preliminary Study
- Title(参考訳): 音響モーフィングのためのボトルネック識別損失を有する終端終端拡張変分オートエンコーダ -予備的検討-
- Authors: Matteo Lionello and Hendrik Purwins
- Abstract要約: 本稿では,音のモーフィングのための終端から終端までの変分オートエンコーダ(VAE)について予備的検討を行う。
ダイレーション層(DC-VAE)を持つVAEと、通常の畳み込み層(CC-VAE)を持つVAEの2種類を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a preliminary study on an end-to-end variational autoencoder (VAE)
for sound morphing. Two VAE variants are compared: VAE with dilation layers
(DC-VAE) and VAE only with regular convolutional layers (CC-VAE). We combine
the following loss functions: 1) the time-domain mean-squared error for
reconstructing the input signal, 2) the Kullback-Leibler divergence to the
standard normal distribution in the bottleneck layer, and 3) the classification
loss calculated from the bottleneck representation. On a database of spoken
digits, we use 1-nearest neighbor classification to show that the sound classes
separate in the bottleneck layer. We introduce the Mel-frequency cepstrum
coefficient dynamic time warping (MFCC-DTW) deviation as a measure of how well
the VAE decoder projects the class center in the latent (bottleneck) layer to
the center of the sounds of that class in the audio domain. In terms of
MFCC-DTW deviation and 1-NN classification, DC-VAE outperforms CC-VAE. These
results for our parametrization and our dataset indicate that DC-VAE is more
suitable for sound morphing than CC-VAE, since the DC-VAE decoder better
preserves the topology when mapping from the audio domain to the latent space.
Examples are given both for morphing spoken digits and drum sounds.
- Abstract(参考訳): 本稿では,音声モーフィングのためのエンドツーエンド変分オートエンコーダ(vae)に関する予備的検討を行う。
ダイレーション層(DC-VAE)を持つVAEと、通常の畳み込み層(CC-VAE)を持つVAEの2種類を比較した。
以下の損失関数を組み合わせます。
1)入力信号再構成のための時間領域平均二乗誤差
2)kullback-leiblerのボトルネック層における標準正規分布への偏り,および
3) ボトルネック表現から算出した分類損失。
音声桁のデータベース上では,音響クラスがボトルネック層で分離していることを示すために,1-nearest近傍の分類を用いる。
本稿では,VAEデコーダが潜伏層(ボトルネック層)のクラス中心を,音声領域におけるそのクラスの音の中心にどのように投射するかの尺度として,Mel- frequency cepstrum coefficient dynamic time warping (MFCC-DTW)の偏差を導入する。
MFCC-DTW偏差と1-NN分類では、DC-VAEはCC-VAEより優れている。
これらの結果は,DC-VAEデコーダが音声領域から潜時空間へのマッピング時のトポロジをよりよく保存するので,DC-VAEはCC-VAEよりも音のモーフィングに適していることを示している。
音声の数字とドラムの音の変形を例に挙げる。
関連論文リスト
- Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Audio classification with Dilated Convolution with Learnable Spacings [10.89964981012741]
学習可能な間隔による拡張畳み込み(DCLS)は、バックプロパゲーションによるトレーニングを通じてカーネル要素の位置を学習する最近の畳み込み法である。
ここでは、AudioSet分類ベンチマークを用いて、DCLSはオーディオタグ付けにも有用であることを示す。
論文 参考訳(メタデータ) (2023-09-25T09:09:54Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Chain-based Discriminative Autoencoders for Speech Recognition [16.21321835306968]
音声認識のための識別オートエンコーダ(DcAE)の3つの新しいバージョンを提案する。
まず,分類的クロスエントロピーと地上の真理と予測された三音状態列の相互情報の両方を考慮に入れた新たな目的関数を用いる。
頑健な音声認識に適用するために、我々はc-DcAEを階層構造と並列構造に拡張し、hc-DcAEとpc-DcAEを生成する。
論文 参考訳(メタデータ) (2022-03-25T14:51:48Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Conditional Deep Hierarchical Variational Autoencoder for Voice
Conversion [5.538544897623972]
変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。
本稿では, モデル表現性の増加がVAE-VCに与える影響について検討する。
論文 参考訳(メタデータ) (2021-12-06T05:54:11Z) - Consistency Regularization for Variational Auto-Encoders [14.423556966548544]
変分自動エンコーダ(VAE)は教師なし学習の強力なアプローチである。
本稿では,VAEの整合性を強制する正規化手法を提案する。
論文 参考訳(メタデータ) (2021-05-31T10:26:32Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。