論文の概要: Latent Vector Recovery of Audio GANs
- arxiv url: http://arxiv.org/abs/2010.08534v1
- Date: Fri, 16 Oct 2020 17:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:39:39.365421
- Title: Latent Vector Recovery of Audio GANs
- Title(参考訳): オーディオガンの潜時ベクトル回復
- Authors: Andrew Keyes, Nicky Bayat, Vahid Reza Khazaie, Yalda Mohsenzadeh
- Abstract要約: 我々は、WaveGANによって合成された音声を、ほぼ同一の再構成性能で対応する潜在空間に投影するために、ディープ残差ニューラルネットワークアーキテクチャを訓練する。
合成音声の場合、基底真実と復元された潜在ベクトルとの間の平均正方形誤差(MSE)を最小化する。
- 参考スコア(独自算出の注目度): 6.824692201913679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced Generative Adversarial Networks (GANs) are remarkable in generating
intelligible audio from a random latent vector. In this paper, we examine the
task of recovering the latent vector of both synthesized and real audio.
Previous works recovered latent vectors of given audio through an auto-encoder
inspired technique that trains an encoder network either in parallel with the
GAN or after the generator is trained. With our approach, we train a deep
residual neural network architecture to project audio synthesized by WaveGAN
into the corresponding latent space with near identical reconstruction
performance. To accommodate for the lack of an original latent vector for real
audio, we optimize the residual network on the perceptual loss between the real
audio samples and the reconstructed audio of the predicted latent vectors. In
the case of synthesized audio, the Mean Squared Error (MSE) between the ground
truth and recovered latent vector is minimized as well. We further investigated
the audio reconstruction performance when several gradient optimization steps
are applied to the predicted latent vector. Through our deep neural network
based method of training on real and synthesized audio, we are able to predict
a latent vector that corresponds to a reasonable reconstruction of real audio.
Even though we evaluated our method on WaveGAN, our proposed method is
universal and can be applied to any other GANs.
- Abstract(参考訳): GAN(Advanced Generative Adversarial Networks)は、ランダムな潜伏ベクトルから知的な音声を生成する際、顕著である。
本稿では,合成音声と実音声の両方の潜時ベクトルを復元する作業について検討する。
以前の研究では、ganと並行してエンコーダネットワークを訓練するオートエンコーダインスパイア技術によって、与えられたオーディオの潜在ベクトルを回復した。
提案手法では,WaveGANで合成した音声をほぼ同一の再構成性能で対応する潜在空間に投影するディープ残差ニューラルネットワークアーキテクチャを訓練する。
実音声に対する元の潜時ベクトルの欠如に対応するため、実音声サンプルと予測潜時ベクトルの再構成音声との知覚的損失に対する残差ネットワークを最適化する。
合成音声の場合、基底真実と復元された潜在ベクトルとの間の平均正方形誤差(MSE)も最小化される。
さらに,予測潜在ベクトルに複数の勾配最適化ステップを適用した際の音声再構成性能について検討した。
深層ニューラルネットワークを用いた実音声と合成音声の学習手法により,実音声の合理的な再構成に対応する潜在ベクトルを予測できる。
提案手法は WaveGAN 上で評価するが,提案手法は普遍的であり,他の GAN にも適用可能である。
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。