論文の概要: UmbraTTS: Adapting Text-to-Speech to Environmental Contexts with Flow Matching
- arxiv url: http://arxiv.org/abs/2506.09874v1
- Date: Wed, 11 Jun 2025 15:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.107108
- Title: UmbraTTS: Adapting Text-to-Speech to Environmental Contexts with Flow Matching
- Title(参考訳): UmbraTTS:フローマッチングによる環境文脈へのテキスト合成
- Authors: Neta Glazer, Aviv Navon, Yael Segal, Aviv Shamsian, Hilit Segev, Asaf Buchnick, Menachem Pirchi, Gil Hetz, Joseph Keshet,
- Abstract要約: UmbraTTSは、音声と環境の両方を共同で生成するフローマッチングベースのTSモデルである。
本モデルでは,背景音量のきめ細かな制御が可能であり,多様な,一貫性のある,コンテキスト対応の音声シーンを生成できる。
- 参考スコア(独自算出の注目度): 17.559310386487493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Text-to-Speech (TTS) have enabled highly natural speech synthesis, yet integrating speech with complex background environments remains challenging. We introduce UmbraTTS, a flow-matching based TTS model that jointly generates both speech and environmental audio, conditioned on text and acoustic context. Our model allows fine-grained control over background volume and produces diverse, coherent, and context-aware audio scenes. A key challenge is the lack of data with speech and background audio aligned in natural context. To overcome the lack of paired training data, we propose a self-supervised framework that extracts speech, background audio, and transcripts from unannotated recordings. Extensive evaluations demonstrate that UmbraTTS significantly outperformed existing baselines, producing natural, high-quality, environmentally aware audios.
- Abstract(参考訳): 最近のTTS(Text-to-Speech)の進歩により、非常に自然な音声合成が可能になったが、複雑な背景環境と音声の統合は依然として困難である。
UmbraTTSは、音声と環境の両方を共同で生成し、テキストと音響の文脈で条件付けするフローマッチングベースのTSモデルである。
本モデルでは,背景音量のきめ細かな制御が可能であり,多様な,一貫性のある,コンテキスト対応の音声シーンを生成できる。
重要な課題は、自然言語とバックグラウンドオーディオが自然な文脈で一致していないことだ。
ペアトレーニングデータの欠如を克服するため,無注釈録音から音声,バックグラウンド音声,テキストを抽出する自己教師型フレームワークを提案する。
広範囲な評価の結果、UmbraTTSは既存のベースラインを著しく上回り、自然で高品質で環境に配慮したオーディオを生み出した。
関連論文リスト
- LoRP-TTS: Low-Rank Personalized Text-To-Speech [0.0]
音声合成モデルは、テキストを自然な音声に変換する。
Low-Rank Adaptation (LoRA) は、ノイズの多い環境で自然発話の単一記録をプロンプトとしてうまく利用することができる。
論文 参考訳(メタデータ) (2025-02-11T14:00:12Z) - Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance [9.87139502863569]
Koel-TTSは拡張エンコーダデコーダトランスフォーマーTSモデルのスイートである。
拡張エンコーダデコーダトランスフォーマーTSモデルのスイートであるKoel-TTSを紹介する。
論文 参考訳(メタデータ) (2025-02-07T06:47:11Z) - On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文 参考訳(メタデータ) (2024-02-19T16:22:21Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech
Synthesis and Editing [31.666920933058144]
本稿では,テキスト入力と音響テキストアライメントによるマスク付き音響信号の再構成を行うアライメント・アウェア・アウェア・アコースティック・テキスト・プレトレーニング(A$3$T)を提案する。
実験では、A$3$Tは、音声編集におけるSOTAモデルよりも優れており、外部話者検証モデルなしでは、マルチスピーカ音声合成を改善する。
論文 参考訳(メタデータ) (2022-03-18T01:36:25Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。