論文の概要: Speak, Edit, Repeat: High-Fidelity Voice Editing and Zero-Shot TTS with Cross-Attentive Mamba
- arxiv url: http://arxiv.org/abs/2510.04738v1
- Date: Mon, 06 Oct 2025 12:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.842096
- Title: Speak, Edit, Repeat: High-Fidelity Voice Editing and Zero-Shot TTS with Cross-Attentive Mamba
- Title(参考訳): Speak, Edit, Repeat: High-Fidelity Voice Editing and Zero-Shot TTS with Cross-Attentive Mamba
- Authors: Baher Mohammad, Magauiya Zhussip, Stamatios Lefkimmiatis,
- Abstract要約: MAVEは、テキスト条件付き音声編集と高忠実な音声合成のための新しい自動回帰アーキテクチャである。
MAVEは、音声編集における最先端のパフォーマンスと、ゼロショットTSにおける非常に競合的な結果を達成する。
MAVEは、RealEditデータベースからの発話を推測する際に、VoiceCraftよりも6倍少ないメモリを必要とする。
- 参考スコア(独自算出の注目度): 5.055749974859193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MAVE (Mamba with Cross-Attention for Voice Editing and Synthesis), a novel autoregressive architecture for text-conditioned voice editing and high-fidelity text-to-speech (TTS) synthesis, built on a cross-attentive Mamba backbone. MAVE achieves state-of-the-art performance in speech editing and very competitive results in zero-shot TTS, while not being explicitly trained on the latter task, outperforming leading autoregressive and diffusion models on diverse, real-world audio. By integrating Mamba for efficient audio sequence modeling with cross-attention for precise text-acoustic alignment, MAVE enables context-aware voice editing with exceptional naturalness and speaker consistency. In pairwise human evaluations on a random 40-sample subset of the RealEdit benchmark (400 judgments), 57.2% of listeners rated MAVE - edited speech as perceptually equal to the original, while 24.8% prefered the original and 18.0% MAVE - demonstrating that in the majority of cases edits are indistinguishable from the source. MAVE compares favorably with VoiceCraft and FluentSpeech both on pairwise comparisons and standalone mean opinion score (MOS) evaluations. For zero-shot TTS, MAVE exceeds VoiceCraft in both speaker similarity and naturalness, without requiring multiple inference runs or post-processing. Remarkably, these quality gains come with a significantly lower memory cost and approximately the same latency: MAVE requires ~6x less memory than VoiceCraft during inference on utterances from the RealEdit database (mean duration: 6.21s, A100, FP16, batch size 1). Our results demonstrate that MAVE establishes a new standard for flexible, high-fidelity voice editing and synthesis through the synergistic integration of structured state-space modeling and cross-modal attention.
- Abstract(参考訳): テキスト条件付き音声編集と高忠実テキスト音声合成のための新しい自己回帰アーキテクチャであるMAVE(Mamba with Cross-Attention for Voice Editing and Synthesis)を紹介する。
MAVEは、音声編集における最先端のパフォーマンスとゼロショットTSにおける非常に競争的な結果を達成するが、後者のタスクでは明示的に訓練されていない。
高精度なテキスト・音響アライメントのための効率的な音声シーケンスモデリングのためのMambaを統合することで、MAVEはコンテキスト認識音声編集を可能にする。
RealEditベンチマークの40サンプルのランダムなサブセット(400判定)での人間による評価では、57.2%のリスナーがMAVE - 編集された音声を原語と知覚的に等しいものとして評価し、24.8%は原語と18.0%のMAVEを好んだ。
MAVEはVoiceCraftとFluentSpeechをペア比較とスタンドアローン平均評価スコア(MOS)評価で比較する。
ゼロショットTSでは、MAVEは複数の推論実行や後処理を必要とせず、話者の類似性と自然性の両方においてVoiceCraftを上回っている。
MAVEは、RealEditデータベースからの発話(平均時間:6.21秒、A100、FP16、バッチサイズ1)の推測において、VoiceCraftよりも6倍少ないメモリを必要とする。
以上の結果から,MAVEは構造化状態空間モデリングとクロスモーダルアテンションの相乗的統合により,フレキシブルで高忠実な音声編集と合成のための新しい標準を確立していることが示された。
関連論文リスト
- VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild [42.788845796159045]
本稿では,音声編集とゼロショット音声タスクの両方で最先端のパフォーマンスを実現する,トークンを埋め込んだニューラルネットワークモデルであるVoiceCraftを紹介する。
音声編集タスクでは、ボイスクラフトは自然性の観点から未編集の録音とほとんど区別できない編集された音声を生成する。
ゼロショットTSでは、VALLEや一般的な商用モデルであるXTTS-v2など、従来のSotAモデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-25T17:38:32Z) - Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale [58.46845567087977]
Voiceboxは、大規模音声のための最も多用途なテキスト誘導生成モデルである。
モノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用できる。
最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%のワードエラー率)とオーディオの類似性(0.580対0.681)は20倍高速である。
論文 参考訳(メタデータ) (2023-06-23T16:23:24Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement [40.29155338515071]
ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルである。
単一のモデルで全てのLRS3オーディオ視覚強調タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-21T21:36:52Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。