論文の概要: Conan: A Chunkwise Online Network for Zero-Shot Adaptive Voice Conversion
- arxiv url: http://arxiv.org/abs/2507.14534v3
- Date: Wed, 30 Jul 2025 19:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.249555
- Title: Conan: A Chunkwise Online Network for Zero-Shot Adaptive Voice Conversion
- Title(参考訳): Conan: ゼロショット適応音声変換のためのチャンクワイズオンラインネットワーク
- Authors: Yu Zhang, Baotong Tian, Zhiyao Duan,
- Abstract要約: Conanは、オンラインのゼロショット音声変換モデルだ。
音声の音色と参照音声のスタイルを一致させながら、ソースの内容を保存する。
コナンは主観的および客観的な指標でベースラインモデルより優れている。
- 参考スコア(独自算出の注目度): 17.018587094342948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot online voice conversion (VC) holds significant promise for real-time communications and entertainment. However, current VC models struggle to preserve semantic fidelity under real-time constraints, deliver natural-sounding conversions, and adapt effectively to unseen speaker characteristics. To address these challenges, we introduce Conan, a chunkwise online zero-shot voice conversion model that preserves the content of the source while matching the voice timbre and styles of reference speech. Conan comprises three core components: 1) a Stream Content Extractor that leverages Emformer for low-latency streaming content encoding; 2) an Adaptive Style Encoder that extracts fine-grained stylistic features from reference speech for enhanced style adaptation; 3) a Causal Shuffle Vocoder that implements a fully causal HiFiGAN using a pixel-shuffle mechanism. Experimental evaluations demonstrate that Conan outperforms baseline models in subjective and objective metrics. Audio samples can be found at https://aaronz345.github.io/ConanDemo.
- Abstract(参考訳): ゼロショットオンライン音声変換(VC)は、リアルタイムのコミュニケーションとエンターテイメントに大きく貢献する。
しかし、現在のVCモデルは、リアルタイムな制約の下で意味的忠実性を維持するのに苦労し、自然に聞こえる変換を提供し、目に見えない話者の特性に効果的に適応します。
これらの課題に対処するために,音声の音色と参照音声のスタイルをマッチングしながら,音源の内容を保存するオンラインゼロショット音声変換モデルであるConanを導入する。
コナンは3つのコアコンポーネントから構成される。
1) 低遅延ストリーミングコンテンツエンコーディングにEmformerを利用するストリームコンテンツエクストラクタ
2) 改良されたスタイル適応のための参照音声からきめ細かなスタイル特徴を抽出する適応型スタイルエンコーダ
3) ピクセルシャッフル機構を用いた完全因果HiFiGANを実装した因果シャッフルヴォコーダ。
実験的評価により、コナンは主観的および客観的な指標においてベースラインモデルより優れていることが示された。
オーディオサンプルはhttps://aaronz345.github.io/ConanDemoで見ることができる。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - AdaptVC: High Quality Voice Conversion with Adaptive Learning [28.25726543043742]
鍵となる課題は、ソースと音声スタイルから絡み合った言語コンテンツを抽出することである。
本稿では,アダプタを用いた自己教師型音声特徴の調整により,コンテンツと話者の特徴のアンタングル化を成功させる。
アダプタは、リッチな自己教師付き特徴からニュアンス特徴を動的に符号化するように訓練され、デコーダはそれらを融合して参照に正確に類似した音声を生成する。
論文 参考訳(メタデータ) (2025-01-02T16:54:08Z) - Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre Modeling [14.98368067290024]
Takin-VCは、新しい表現力のあるゼロショット音声変換フレームワークである。
本稿では,適応型融合モジュールを組み込んだ革新的なハイブリッドコンテンツエンコーダを提案する。
音色モデリングでは,メモリ拡張およびコンテキスト対応モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。