論文の概要: BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis
- arxiv url: http://arxiv.org/abs/2205.14807v1
- Date: Mon, 30 May 2022 02:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 18:38:47.080517
- Title: BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis
- Title(参考訳): BinauralGrad:バイノーラルオーディオ合成のための2段階条件拡散確率モデル
- Authors: Yichong Leng, Zehua Chen, Junliang Guo, Haohe Liu, Jiawei Chen, Xu
Tan, Danilo Mandic, Lei He, Xiang-Yang Li, Tao Qin, Sheng Zhao, Tie-Yan Liu
- Abstract要約: 我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 129.86743102915986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Binaural audio plays a significant role in constructing immersive augmented
and virtual realities. As it is expensive to record binaural audio from the
real world, synthesizing them from mono audio has attracted increasing
attention. This synthesis process involves not only the basic physical warping
of the mono audio, but also room reverberations and head/ear related
filtrations, which, however, are difficult to accurately simulate in
traditional digital signal processing. In this paper, we formulate the
synthesis process from a different perspective by decomposing the binaural
audio into a common part that shared by the left and right channels as well as
a specific part that differs in each channel. Accordingly, we propose
BinauralGrad, a novel two-stage framework equipped with diffusion models to
synthesize them respectively. Specifically, in the first stage, the common
information of the binaural audio is generated with a single-channel diffusion
model conditioned on the mono audio, based on which the binaural audio is
generated by a two-channel diffusion model in the second stage. Combining this
novel perspective of two-stage synthesis with advanced generative models (i.e.,
the diffusion models),the proposed BinauralGrad is able to generate accurate
and high-fidelity binaural audio samples. Experiment results show that on a
benchmark dataset, BinauralGrad outperforms the existing baselines by a large
margin in terms of both object and subject evaluation metrics (Wave L2: 0.128
vs. 0.157, MOS: 3.80 vs. 3.61). The generated audio samples are available
online.
- Abstract(参考訳): バイノーラルオーディオは没入型拡張および仮想現実の構築において重要な役割を果たす。
現実世界からバイノーラルオーディオを録音するのは費用がかかるため、mono audioからの合成が注目を集めている。
この合成プロセスは、モノオーディオの基本的物理的歪みだけでなく、室内残響や頭耳関連濾過も含むが、従来のデジタル信号処理では正確にシミュレートすることは困難である。
本稿では,バイノーラル音声を左右のチャンネルで共有される共通部分と,各チャンネルで異なる特定の部分に分解することで,異なる視点から合成過程を定式化する。
そこで本研究では,拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
具体的には、第1段において、バイノーラルオーディオの共通情報は、第2段の2チャンネル拡散モデルによりバイノーラルオーディオが生成されるモノオーディオに条件付けられたシングルチャネル拡散モデルで生成される。
この2段階合成と高度な生成モデル(拡散モデル)を組み合わせることで、BinauralGradは高精度で高忠実なバイノーラルオーディオサンプルを生成することができる。
実験の結果、ベンチマークデータセットでは、BinauralGradは、対象と対象の両方の評価指標(Wave L2:0.128 vs. 0.157, MOS: 3.80 vs. 3.61)において、既存のベースラインよりも優れた性能を示している。
生成されたオーディオサンプルはオンラインで入手できる。
関連論文リスト
- Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。
空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio
Codec and Latent Diffusion Models [25.966328901566815]
ニューラルオーディオと潜時拡散モデルを用いた高品質な歌声合成システムHiddenSingerを提案する。
さらに,提案手法を教師なし音声学習フレームワークであるHiddenSinger-Uに拡張し,モデルを訓練する。
実験結果から,従来のモデルよりも音質が優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-12T01:21:41Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - SpecSinGAN: Sound Effect Variation Synthesis Using Single-Image GANs [0.0]
単一画像生成敵ネットワークは、単一のトレーニング例の内部分布から学習し、そのバリエーションを生成する。
SpecSinGANはワンショットのサウンド効果を1つ受け取り、まるで同じレコーディングセッションと異なるテイクであるかのように、その新しいバリエーションを生成する。
論文 参考訳(メタデータ) (2021-10-14T12:25:52Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。