論文の概要: TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization
- arxiv url: http://arxiv.org/abs/2602.09389v1
- Date: Tue, 10 Feb 2026 03:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.3661
- Title: TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization
- Title(参考訳): TVTSyn: ストリーミング音声変換と匿名化のためのコンテンツ同期時変タイブレ
- Authors: Waris Quamer, Mu-Ruei Tseng, Ghady Nasrallah, Ricardo Gutierrez-Osuna,
- Abstract要約: リアルタイム音声変換と話者匿名化は、不明瞭さや自然性を犠牲にすることなく因果的、低レイテンシ合成を必要とする。
本稿では、コンテンツ同期、時間変化の音色表現を通じて、個人とコンテンツの時間的粒度を調整可能な音声合成装置を提案する。
結果として得られるシステムは、ストリーム可能なエンドツーエンドで、80msのGPUレイテンシを持つ。
- 参考スコア(独自算出の注目度): 4.7828228833826145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time voice conversion and speaker anonymization require causal, low-latency synthesis without sacrificing intelligibility or naturalness. Current systems have a core representational mismatch: content is time-varying, while speaker identity is injected as a static global embedding. We introduce a streamable speech synthesizer that aligns the temporal granularity of identity and content via a content-synchronous, time-varying timbre (TVT) representation. A Global Timbre Memory expands a global timbre instance into multiple compact facets; frame-level content attends to this memory, a gate regulates variation, and spherical interpolation preserves identity geometry while enabling smooth local changes. In addition, a factorized vector-quantized bottleneck regularizes content to reduce residual speaker leakage. The resulting system is streamable end-to-end, with <80 ms GPU latency. Experiments show improvements in naturalness, speaker transfer, and anonymization compared to SOTA streaming baselines, establishing TVT as a scalable approach for privacy-preserving and expressive speech synthesis under strict latency budgets.
- Abstract(参考訳): リアルタイム音声変換と話者匿名化は、不明瞭さや自然性を犠牲にすることなく因果的、低レイテンシ合成を必要とする。
現在のシステムでは、コンテンツは時間によって異なるが、話者アイデンティティは静的なグローバルな埋め込みとして注入される。
本稿では,TVT(Content-synchronous, time-variant timbre)表現を用いて,個人性やコンテンツの時間的粒度を調整可能な音声合成装置を提案する。
Global Timbre Memoryはグローバルな音色インスタンスを複数のコンパクトなファセットに拡張し、フレームレベルのコンテンツはこのメモリに付随し、ゲートは変動を規制し、球面補間は局所的なスムーズな変化を可能にしながらアイデンティティー幾何学を保存する。
さらに、ベクトル量子化ボトルネックは、残留話者リークを低減するためにコンテンツを正規化する。
結果のシステムは、ストリーム可能なエンドツーエンドで、80msのGPUレイテンシを持つ。
実験は、SOTAストリーミングベースラインと比較して自然性、話者移動、匿名化の改善を示し、厳格なレイテンシ予算下でのプライバシー保護と表現力のある音声合成のためのスケーラブルなアプローチとしてTVTを確立する。
関連論文リスト
- InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer [43.48616092324736]
制御可能な音声生成のための動的イベントグラフ誘導拡散トランスフォーマフレームワークであるDegDiTを提案する。
DegDiTは、記述中のイベントを構造化された動的グラフとしてエンコードする。
AudioCondition、DESED、AudioTimeデータセットの実験は、DegDiTが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-08-19T12:41:15Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。