論文の概要: BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models
- arxiv url: http://arxiv.org/abs/2505.22865v1
- Date: Wed, 28 May 2025 20:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.539125
- Title: BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models
- Title(参考訳): Binaural Flow:フローマッチングモデルを用いた高品質バイノーラル音声合成のための因果的・流速的アプローチ
- Authors: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard,
- Abstract要約: バイノーラルレンダリングパイプラインは、モノラルオーディオに基づいて自然な聴覚を模倣するオーディオを合成することを目的としている。
この問題を解決するために多くの方法が提案されているが、レンダリング品質とストリーミング可能な推論に苦慮している。
本稿では,BinauralFlow合成フレームワークという,フローマッチングに基づくストリーミング音声フレームワークを提案する。
- 参考スコア(独自算出の注目度): 62.38713281234756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binaural rendering aims to synthesize binaural audio that mimics natural hearing based on a mono audio and the locations of the speaker and listener. Although many methods have been proposed to solve this problem, they struggle with rendering quality and streamable inference. Synthesizing high-quality binaural audio that is indistinguishable from real-world recordings requires precise modeling of binaural cues, room reverb, and ambient sounds. Additionally, real-world applications demand streaming inference. To address these challenges, we propose a flow matching based streaming binaural speech synthesis framework called BinauralFlow. We consider binaural rendering to be a generation problem rather than a regression problem and design a conditional flow matching model to render high-quality audio. Moreover, we design a causal U-Net architecture that estimates the current audio frame solely based on past information to tailor generative models for streaming inference. Finally, we introduce a continuous inference pipeline incorporating streaming STFT/ISTFT operations, a buffer bank, a midpoint solver, and an early skip schedule to improve rendering continuity and speed. Quantitative and qualitative evaluations demonstrate the superiority of our method over SOTA approaches. A perceptual study further reveals that our model is nearly indistinguishable from real-world recordings, with a $42\%$ confusion rate.
- Abstract(参考訳): バイノーラルレンダリングの目的は、モノラルオーディオとスピーカーとリスナーの位置に基づいて、自然な聴覚を模倣するバイノーラルオーディオを合成することである。
この問題を解決するために多くの方法が提案されているが、レンダリング品質とストリーミング可能な推論に苦慮している。
実世界の録音と区別できない高品質のバイノーラルオーディオを合成するには、バイノーラル・キュー、ルームリバーブ、環境音の正確なモデリングが必要である。
さらに、現実世界のアプリケーションはストリーミング推論を必要とする。
これらの課題に対処するために、BinauralFlowと呼ばれるフローマッチングに基づくストリーミングバイノーラル音声合成フレームワークを提案する。
バイノーラルレンダリングを回帰問題ではなく生成問題とみなし、高品質なオーディオをレンダリングするための条件付きフローマッチングモデルを設計する。
さらに、過去の情報のみに基づいて現在の音声フレームを推定する因果的U-Netアーキテクチャを設計し、ストリーミング推論のための生成モデルを調整する。
最後に,ストリーミングSTFT/ISTFT操作,バッファバンク,ミドルポイントソルバ,早期スキップスケジュールを組み込んだ連続推論パイプラインを導入し,レンダリングの連続性と高速化を図る。
定量的および定性的な評価は,SOTA法よりも提案法の方が優れていることを示す。
知覚的な研究により、われわれのモデルは現実世界の録音とほとんど区別がつかないことが判明した。
関連論文リスト
- Diffusion Models for Audio Restoration [22.385385150594185]
本稿では拡散モデルに基づく音声復元アルゴリズムを提案する。
拡散モデルは両世界の長所を組み合わせることができ、オーディオ復元アルゴリズムを設計する機会を提供する。
拡散形式とそのクリーンな音声信号の条件付き生成への応用について説明する。
論文 参考訳(メタデータ) (2024-02-15T09:36:36Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。