論文の概要: RT-VC: Real-Time Zero-Shot Voice Conversion with Speech Articulatory Coding
- arxiv url: http://arxiv.org/abs/2506.10289v1
- Date: Thu, 12 Jun 2025 02:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.528027
- Title: RT-VC: Real-Time Zero-Shot Voice Conversion with Speech Articulatory Coding
- Title(参考訳): RT-VC:音声調音符号化によるリアルタイムゼロショット音声変換
- Authors: Yisi Liu, Chenyang Wang, Hanjo Kim, Raniya Khan, Gopala Anumanchipalli,
- Abstract要約: RT-VCは、超低レイテンシと高品質なパフォーマンスを提供するゼロショットリアルタイム音声変換システムである。
RT-VCは61.4msのCPUレイテンシを実現し,13.3%のレイテンシ削減を実現している。
- 参考スコア(独自算出の注目度): 1.6012334795166434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice conversion has emerged as a pivotal technology in numerous applications ranging from assistive communication to entertainment. In this paper, we present RT-VC, a zero-shot real-time voice conversion system that delivers ultra-low latency and high-quality performance. Our approach leverages an articulatory feature space to naturally disentangle content and speaker characteristics, facilitating more robust and interpretable voice transformations. Additionally, the integration of differentiable digital signal processing (DDSP) enables efficient vocoding directly from articulatory features, significantly reducing conversion latency. Experimental evaluations demonstrate that, while maintaining synthesis quality comparable to the current state-of-the-art (SOTA) method, RT-VC achieves a CPU latency of 61.4 ms, representing a 13.3\% reduction in latency.
- Abstract(参考訳): 音声変換は、援助コミュニケーションからエンターテイメントまで、数多くの応用において重要な技術として現れてきた。
本稿では,超低レイテンシと高品質性能を実現するゼロショットリアルタイム音声変換システムRT-VCを提案する。
提案手法では, 自然な内容と話者特性を両立させ, より堅牢で解釈可能な音声変換を実現する。
さらに、微分可能ディジタル信号処理(DDSP)の統合により、音声特徴から直接効率的な音声符号化が可能となり、変換遅延を大幅に低減する。
RT-VCは、現在の最先端(SOTA)法に匹敵する合成品質を維持しながら、CPUのレイテンシを61.4msで達成し、13.3\%のレイテンシを低下させることを示した。
関連論文リスト
- Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - Towards Sub-millisecond Latency Real-Time Speech Enhancement Models on Hearables [21.542503235873227]
低レイテンシモデルは、補聴器や補聴器などのリアルタイム音声強調アプリケーションに不可欠である。
計算効率のよい最小位相FIRフィルタを用いて音声強調を行い、サンプル・バイ・サンプル処理により平均アルゴリズム遅延0.32msから1.25msを実現した。
この作業によってレイテンシの理解が向上し,可聴性の快適性とユーザビリティの向上が期待できます。
論文 参考訳(メタデータ) (2024-09-26T19:31:05Z) - Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP [6.295981052578859]
EMA(Electronic Articulography)のような動脈軌跡は声道フィルタの低次元表現を提供する。
本稿では,EMA,F0,ラウドネスから音声を合成できる高速で高品質でパラメータ効率のよいVocoderを提案する。
本モデルでは,6.67%の転写単語誤り率(WER)と3.74の平均世論スコア(MOS)を達成し,最新技術(SOTA)ベースラインと比較して1.63%,0.16の改善を行った。
論文 参考訳(メタデータ) (2024-09-04T05:12:15Z) - RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement [36.10772098876638]
LA-VocEのすべてのコンポーネントを再設計して40msの入力フレームで因果的リアルタイム推論を行うRT-LA-VocEを提案する。
提案アルゴリズムは,すべてのリアルタイムシナリオにおいて,最先端の処理結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-10T16:49:23Z) - OFDM-Standard Compatible SC-NOFS Waveforms for Low-Latency and Jitter-Tolerance Industrial IoT Communications [53.398544571833135]
この研究は、スペクトル的に効率的な不規則なSinc (irSinc) 整形法を提案し、1924年に従来のSincを再考した。
irSincは、誤差性能を犠牲にすることなくスペクトル効率が向上した信号を生成する。
我々の信号は、5G標準信号構成により、同じスペクトル帯域内で高速なデータ伝送を実現する。
論文 参考訳(メタデータ) (2024-06-07T09:20:30Z) - StreamVC: Real-Time Low-Latency Voice Conversion [20.164321451712564]
StreamVCはストリーミング音声変換ソリューションで、任意のソース音声の内容と韻律を保存し、任意のターゲット音声から音声の音色をマッチングする。
StreamVCは、モバイルプラットフォーム上でも入力信号から低レイテンシで結果の波形を生成する。
論文 参考訳(メタデータ) (2024-01-05T22:37:26Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Building Accurate Low Latency ASR for Streaming Voice Search [0.0]
本研究は,大規模音声検索のためのLSTM,アテンション,CTCに基づくストリーミングASRモデルの開発に重点を置いている。
本研究では,バニラLSTMトレーニングの各種修正について検討し,ストリーミング機能を維持しながらシステムの精度を向上する。
本稿では,共同ASRとEOS検出が可能なエンド・ツー・エンドモデルの簡単なトレーニングと推論戦略を提案する。
論文 参考訳(メタデータ) (2023-05-29T20:24:14Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。