論文の概要: StreamVC: Real-Time Low-Latency Voice Conversion
- arxiv url: http://arxiv.org/abs/2401.03078v1
- Date: Fri, 5 Jan 2024 22:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:33:57.244814
- Title: StreamVC: Real-Time Low-Latency Voice Conversion
- Title(参考訳): StreamVC: リアルタイム低レイテンシ音声変換
- Authors: Yang Yang, Yury Kartynnik, Yunpeng Li, Jiuqiang Tang, Xing Li, George
Sung, Matthias Grundmann
- Abstract要約: StreamVCはストリーミング音声変換ソリューションで、任意のソース音声の内容と韻律を保存し、任意のターゲット音声から音声の音色をマッチングする。
StreamVCは、モバイルプラットフォーム上でも入力信号から低レイテンシで結果の波形を生成する。
- 参考スコア(独自算出の注目度): 20.164321451712564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present StreamVC, a streaming voice conversion solution that preserves the
content and prosody of any source speech while matching the voice timbre from
any target speech. Unlike previous approaches, StreamVC produces the resulting
waveform at low latency from the input signal even on a mobile platform, making
it applicable to real-time communication scenarios like calls and video
conferencing, and addressing use cases such as voice anonymization in these
scenarios. Our design leverages the architecture and training strategy of the
SoundStream neural audio codec for lightweight high-quality speech synthesis.
We demonstrate the feasibility of learning soft speech units causally, as well
as the effectiveness of supplying whitened fundamental frequency information to
improve pitch stability without leaking the source timbre information.
- Abstract(参考訳): 対象音声の音声音色をマッチングしながら、ソース音声の内容と韻律を保存するストリーミング音声変換ソリューションstreamvcを提案する。
従来のアプローチとは異なり、StreamVCはモバイルプラットフォーム上でも入力信号から低レイテンシで結果の波形を生成し、コールやビデオ会議のようなリアルタイム通信シナリオに適用し、これらのシナリオにおける音声匿名化のようなユースケースに対処する。
本設計は、軽量な高品質音声合成のためのサウンドストリームニューラルオーディオコーデックのアーキテクチャとトレーニング戦略を活用する。
音源の音色情報を漏らさずにピッチ安定性を向上させるために白色基本周波数情報の提供の有効性と,ソフト音声単位の因果的学習の可能性を示す。
関連論文リスト
- Zero-shot Voice Conversion with Diffusion Transformers [0.0]
ゼロショット音声変換は、参照音声の音色を未知の話者から一致させるために、音源音声の発話を変換することを目的としている。
従来のアプローチでは、音色漏れ、音色表現の不十分、トレーニングと推論のミスマッチに悩まされていた。
トレーニング中に外部の音色シフタを導入することで,これらの問題に対処する新しいフレームワークであるSeed-VCを提案する。
論文 参考訳(メタデータ) (2024-11-15T04:43:44Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Vocoder-Based Speech Synthesis from Silent Videos [28.94460283719776]
深層学習を用いた話し手のサイレントビデオから音声を合成する方法を提案する。
システムは生のビデオフレームから音響特徴へのマッピング関数を学習し、ボコーダ合成アルゴリズムを用いて音声を再構成する。
論文 参考訳(メタデータ) (2020-04-06T10:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。