論文の概要: Streaming Non-Autoregressive Model for Accent Conversion and Pronunciation Improvement
- arxiv url: http://arxiv.org/abs/2506.16580v1
- Date: Thu, 19 Jun 2025 20:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.244154
- Title: Streaming Non-Autoregressive Model for Accent Conversion and Pronunciation Improvement
- Title(参考訳): アクセント変換と発音改善のためのストリーミング非自己回帰モデル
- Authors: Tuan-Nam Nguyen, Ngoc-Quan Pham, Seymanur Akti, Alexander Waibel,
- Abstract要約: 本研究では,非ネイティブ音声を母語的アクセントに変換する最初のアクセント変換モデルを提案する。
提案手法は,従来のACアーキテクチャをEmformerエンコーダと最適化推論機構で変更することでストリーム処理を実現する。
- 参考スコア(独自算出の注目度): 52.89324095217975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a first streaming accent conversion (AC) model that transforms non-native speech into a native-like accent while preserving speaker identity, prosody and improving pronunciation. Our approach enables stream processing by modifying a previous AC architecture with an Emformer encoder and an optimized inference mechanism. Additionally, we integrate a native text-to-speech (TTS) model to generate ideal ground-truth data for efficient training. Our streaming AC model achieves comparable performance to the top AC models while maintaining stable latency, making it the first AC system capable of streaming.
- Abstract(参考訳): 話者識別,韻律,発音改善を保ちながら,非ネイティブな音声をネイティブなアクセントに変換する第1のストリーミングアクセント変換(AC)モデルを提案する。
提案手法は,従来のACアーキテクチャをEmformerエンコーダと最適化推論機構で変更することでストリーム処理を実現する。
さらに、ネイティブテキスト音声(TTS)モデルを統合して、効率的なトレーニングのための理想的な地上データを生成する。
我々のストリーミングACモデルは、安定したレイテンシを維持しながら上位のACモデルに匹敵する性能を実現し、ストリーミング可能な最初のACシステムとなった。
関連論文リスト
- CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre Modeling [14.98368067290024]
Takin-VCは、新しい表現力のあるゼロショット音声変換フレームワークである。
本稿では,適応型融合モジュールを組み込んだ革新的なハイブリッドコンテンツエンコーダを提案する。
音色モデリングでは,メモリ拡張およびコンテキスト対応モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust
Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation [41.98697872087318]
2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
我々のモデルは、ゼロショットVCシナリオにおいて、0.83%のCERと3.29%のEERを達成する。
論文 参考訳(メタデータ) (2023-11-08T14:02:53Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Improving Accent Conversion with Reference Encoder and End-To-End
Text-To-Speech [23.30022534796909]
アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。
本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T08:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。