論文の概要: Zero-Shot Mono-to-Binaural Speech Synthesis
- arxiv url: http://arxiv.org/abs/2412.08356v1
- Date: Wed, 11 Dec 2024 13:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:00:42.670703
- Title: Zero-Shot Mono-to-Binaural Speech Synthesis
- Title(参考訳): ゼロショットモノ-バイノーラル音声合成
- Authors: Alon Levkovitch, Julian Salazar, Soroosh Mariooryad, RJ Skerry-Ryan, Nadav Bar, Bastiaan Kleijn, Eliya Nachmani,
- Abstract要約: モノラル音声と位置情報から音声を学習することなく合成するニューラルネットワークZeroBASを提案する。
以上の結果から,事前学習された生成音声モデルとゼロショット学習が,ロバストな音声合成を解き放つ可能性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 16.944812371592587
- License:
- Abstract: We present ZeroBAS, a neural method to synthesize binaural audio from monaural audio recordings and positional information without training on any binaural data. To our knowledge, this is the first published zero-shot neural approach to mono-to-binaural audio synthesis. Specifically, we show that a parameter-free geometric time warping and amplitude scaling based on source location suffices to get an initial binaural synthesis that can be refined by iteratively applying a pretrained denoising vocoder. Furthermore, we find this leads to generalization across room conditions, which we measure by introducing a new dataset, TUT Mono-to-Binaural, to evaluate state-of-the-art monaural-to-binaural synthesis methods on unseen conditions. Our zero-shot method is perceptually on-par with the performance of supervised methods on the standard mono-to-binaural dataset, and even surpasses them on our out-of-distribution TUT Mono-to-Binaural dataset. Our results highlight the potential of pretrained generative audio models and zero-shot learning to unlock robust binaural audio synthesis.
- Abstract(参考訳): バイノーラルな音声記録と位置情報からバイノーラルな音声を合成するニューラルネットワークZeroBASを提案する。
我々の知る限り、これはモノ・バイノーラル音声合成のためのゼロショットニューラルアプローチとして初めて発表された。
具体的には,パラメータフリーな幾何時間ゆらぎと振幅のスケーリングにより,事前学習した復調ボコーダを反復的に適用することにより,初期バイノーラル合成が得られることを示す。
さらに, この結果から, 室内環境全体への一般化が期待でき, 未確認条件に対するモノ・バイノーラル・モノ・ツー・バイノーラル(TUT Mono-to-Binaural, TUT Mono-to-Binaural, TUT Mono-to-Binaural, TUT Mono-to-Binaural, TUT Mono-to-Binaural) という新しいデータセットを導入して, モノ・バイノーラル・モノ・バイノーラル・モノ・バイノーラル・コンフォメーション法の評価を行った。
我々のゼロショット法は、標準のモノ・ツー・バイノーラルデータセット上での教師ありメソッドのパフォーマンスと同等であり、アウト・オブ・ディストリビューションのTUT Mono-to-Binauralデータセットではそれらを上回っている。
以上の結果から,事前学習した生成音声モデルとゼロショット学習が,頑健なバイノーラル音声合成を解き放つ可能性を強調した。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Neural Fourier Shift for Binaural Speech Rendering [16.957415282256758]
音源の位置, 方向, 音源から音声を描画するニューラルネットワークを提案する。
フーリエ空間における音声の描画を可能にする新しいネットワークアーキテクチャであるニューラルシフト(NFS)を提案する。
論文 参考訳(メタデータ) (2022-11-02T04:55:09Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Repeat after me: Self-supervised learning of acoustic-to-articulatory
mapping by vocal imitation [9.416401293559112]
そこで本稿では,限定的な解釈可能な音声パラメータ集合から複雑な音声刺激を再現可能な,事前学習されたニューラル音声合成器を組み合わせた音声生成の計算モデルを提案する。
フォワードモデルと逆モデルの両方は、異なる話者からの生の音響のみの音声データから、自己指導的な方法で共同で訓練される。
模倣シミュレーションは客観的かつ主観的に評価され、非常に奨励的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-04-05T15:02:49Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。