論文の概要: StyleStream: Real-Time Zero-Shot Voice Style Conversion
- arxiv url: http://arxiv.org/abs/2602.20113v1
- Date: Mon, 23 Feb 2026 18:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.946488
- Title: StyleStream: Real-Time Zero-Shot Voice Style Conversion
- Title(参考訳): StyleStream: リアルタイムゼロショット音声スタイル変換
- Authors: Yisi Liu, Nicholas Lee, Gopala Anumanchipalli,
- Abstract要約: StyleStreamは、最先端のパフォーマンスを実現するゼロショット音声スタイル変換システムである。
設計は完全な非自己回帰アーキテクチャを可能にし、エンドツーエンドのレイテンシ1秒で、リアルタイムの音声スタイル変換を実現する。
- 参考スコア(独自算出の注目度): 14.496282800974141
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Voice style conversion aims to transform an input utterance to match a target speaker's timbre, accent, and emotion, with a central challenge being the disentanglement of linguistic content from style. While prior work has explored this problem, conversion quality remains limited, and real-time voice style conversion has not been addressed. We propose StyleStream, the first streamable zero-shot voice style conversion system that achieves state-of-the-art performance. StyleStream consists of two components: a Destylizer, which removes style attributes while preserving linguistic content, and a Stylizer, a diffusion transformer (DiT) that reintroduces target style conditioned on reference speech. Robust content-style disentanglement is enforced through text supervision and a highly constrained information bottleneck. This design enables a fully non-autoregressive architecture, achieving real-time voice style conversion with an end-to-end latency of 1 second. Samples and real-time demo: https://berkeley-speech-group.github.io/StyleStream/.
- Abstract(参考訳): 音声スタイル変換は、ターゲット話者の音色、アクセント、感情と一致するように入力発話を変換することを目的としており、その中心となる課題は、スタイルから言語コンテンツを切り離すことである。
先行研究でこの問題が検討されているが、変換品質は限定的であり、リアルタイム音声変換には対応していない。
本稿では,最先端の性能を実現するため,最初のストリーム可能なゼロショット音声変換システムであるStyleStreamを提案する。
StyleStreamは、言語コンテンツを保存しながらスタイル属性を削除するDestylizerと、参照音声で条件付けられたターゲットスタイルを再導入する拡散変換器(DiT)の2つのコンポーネントで構成されている。
ロバストなコンテンツスタイルのゆがみは、テキストの監督と高度に制約された情報のボトルネックによって実施される。
この設計により、完全な非自己回帰アーキテクチャが実現され、エンドツーエンドのレイテンシが1秒のリアルタイム音声スタイル変換を実現する。
サンプルとリアルタイムのデモ:https://berkeley-speech-group.github.io/StyleStream/.com
関連論文リスト
- VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions [66.93932684284695]
音声理解と生成のための統一パラダイムとして、音声言語モデル(SLM)が登場した。
音声スタイル適応(VSA)は,SLMが話し方を変更することができるかどうかを調べる新しいタスクである。
音響属性,自然言語命令,ロールプレイ,暗黙の共感の4つのカテゴリを網羅したベンチマークであるVStyleを提案する。
また,Large Audio Language Model as a Judge (LALM as a Judge) フレームワークを導入し,文章の忠実性,スタイルの忠実性,自然性に沿って出力を段階的に評価する。
論文 参考訳(メタデータ) (2025-09-09T14:28:58Z) - Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion [53.26424100244925]
表現的音声変換は、話者識別と表現的属性の両方を対象音声から所定の音源音声に転送することを目的としている。
本研究では,条件付き変分オートエンコーダを用いた自己監督型非自己回帰型フレームワークを改良する。
論文 参考訳(メタデータ) (2025-06-04T14:42:12Z) - Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any
Voice Conversion using Only Speech Data [2.6217304977339473]
本稿では,ターゲット発話からリッチなスタイル情報を抽出し,ソース音声コンテンツに効率的に転送する手法を提案する。
提案手法では,自己教師付き学習(SSL)モデルを用いた注意機構を提案する。
実験結果から,提案手法と拡散型生成モデルを組み合わせることで,任意の音声変換タスクにおいて,話者の類似性が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-09-06T05:33:54Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Fine-grained style control in Transformer-based Text-to-speech Synthesis [78.92428622630861]
本稿では,Transformer-based text-to-speech synthesis (TransformerTTS) におけるきめ細かいスタイル制御を実現する新しいアーキテクチャを提案する。
参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
論文 参考訳(メタデータ) (2021-10-12T19:50:02Z) - Global Rhythm Style Transfer Without Text Transcriptions [98.09972075975976]
韻律は、話者や感情のスタイルを特徴づける上で重要な役割を果たしている。
ほとんどの非並列音声や感情スタイルの転送アルゴリズムは韻律情報を変換しない。
テキストの書き起こしに頼らずに、グローバルな韻律スタイルを音声から切り離すことができるAutoPSTを提案する。
論文 参考訳(メタデータ) (2021-06-16T02:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。