論文の概要: VoiceBridge: Designing Latent Bridge Models for General Speech Restoration at Scale
- arxiv url: http://arxiv.org/abs/2509.25275v1
- Date: Sun, 28 Sep 2025 17:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.915881
- Title: VoiceBridge: Designing Latent Bridge Models for General Speech Restoration at Scale
- Title(参考訳): VoiceBridge: 大規模音声再生のための遅延ブリッジモデルの設計
- Authors: Chi Zhang, Zehua Chen, Kaiwen Zheng, Jun Zhu,
- Abstract要約: 橋梁モデルは近年, 難読化, 難読化, 超解像化などの音声強調作業のために検討されている。
本稿では,LBMをルーツとするGSRシステムであるVoiceBridgeについて述べる。
データ領域から潜在空間へのブリッジモデルの利点をよりよく継承するため,エネルギー保存型変分オートエンコーダを提案する。
- 参考スコア(独自算出の注目度): 36.563516445950164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bridge models have recently been explored for speech enhancement tasks such as denoising, dereverberation, and super-resolution, while these efforts are typically confined to a single task or small-scale datasets, with constrained general speech restoration (GSR) capability at scale. In this work, we introduce VoiceBridge, a GSR system rooted in latent bridge models (LBMs), capable of reconstructing high-fidelity speech at full-band (\textit{i.e.,} 48~kHz) from various distortions. By compressing speech waveform into continuous latent representations, VoiceBridge models the~\textit{diverse LQ-to-HQ tasks} (namely, low-quality to high-quality) in GSR with~\textit{a single latent-to-latent generative process} backed by a scalable transformer architecture. To better inherit the advantages of bridge models from the data domain to the latent space, we present an energy-preserving variational autoencoder, enhancing the alignment between the waveform and latent space over varying energy levels. Furthermore, to address the difficulty of HQ reconstruction from distinctively different LQ priors, we propose a joint neural prior, uniformly alleviating the reconstruction burden of LBM. At last, considering the key requirement of GSR systems, human perceptual quality, a perceptually aware fine-tuning stage is designed to mitigate the cascading mismatch in generation while improving perceptual alignment. Extensive validation across in-domain and out-of-domain tasks and datasets (\textit{e.g.}, refining recent zero-shot speech and podcast generation results) demonstrates the superior performance of VoiceBridge. Demo samples can be visited at: https://VoiceBridge-demo.github.io/.
- Abstract(参考訳): ブリッジモデルは近年、雑音の除去、デバーベーション、超解像化などの音声強調タスクのために研究されているが、これらの取り組みは一般に1つのタスクまたは小規模データセットに限られており、大規模に拡張された一般音声復元(GSR)機能を備えている。
本稿では,遅延ブリッジモデル(LBM)をルーツとするGSRシステムであるVoiceBridgeを紹介し,様々な歪みから高忠実度音声をフルバンド(\textit{i.e.} 48~kHz)で再構成する。
音声波形を連続的な潜在表現に圧縮することにより、VoiceBridgeはGSRの~\textit{diverse LQ-to-HQ task}(低品質から高品質)を、スケーラブルなトランスフォーマーアーキテクチャを背景とした~\textit{a single latent-to-latent Generative process}でモデル化する。
データ領域から潜時空間へのブリッジモデルの利点をよりよく継承するため,エネルギー保存型変分オートエンコーダを提案し,波形と潜時空間との整合性を高めた。
さらに,異なるLQ先行群からのHQ再建の難しさに対処するため,LBMの再建負担を均一に軽減する結合神経前駆体を提案する。
最終的に、GSRシステムのキー要件、人間の知覚品質を考慮すると、知覚的に認識される微調整段階は、知覚アライメントを改善しつつ、カスケードミスマッチの発生を緩和するように設計されている。
ドメイン内およびドメイン外タスクおよびデータセット(\textit{e g }、最近のゼロショット音声とポッドキャスト生成結果の精細化)にわたる広範囲な検証は、VoiceBridgeの優れたパフォーマンスを示している。
デモサンプルは、https://VoiceBridge-demo.github.io/で見ることができる。
関連論文リスト
- BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models [62.38713281234756]
バイノーラルレンダリングパイプラインは、モノラルオーディオに基づいて自然な聴覚を模倣するオーディオを合成することを目的としている。
この問題を解決するために多くの方法が提案されているが、レンダリング品質とストリーミング可能な推論に苦慮している。
本稿では,BinauralFlow合成フレームワークという,フローマッチングに基づくストリーミング音声フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T20:59:15Z) - Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文 参考訳(メタデータ) (2025-01-20T16:46:26Z) - aTENNuate: Optimized Real-time Speech Enhancement with Deep SSMs on Raw Audio [1.0650780147044159]
ATENNuateは、オンライン生音声の効率向上のために構成された、シンプルなディープな状態空間オートエンコーダである。
我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。
ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。
論文 参考訳(メタデータ) (2024-09-05T09:28:56Z) - Small-E: Small Language Model with Linear Attention for Efficient Speech Synthesis [7.865191493201841]
言語モデルを用いたテキスト音声合成(TTS)の最近の進歩は、自然性やゼロショット音声のクローニングの実現において顕著な能力を示した。
本稿では,リピートやスキップの問題を緩和する特別なクロスアテンション機構を導入し,トランスフォーマーを新たなアーキテクチャに置き換えることを提案する。
我々のアーキテクチャは、長いサンプルで効率的に訓練し、同等の大きさのベースラインに対して最先端のゼロショット音声クローンを実現することができる。
論文 参考訳(メタデータ) (2024-06-06T19:48:17Z) - Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。