論文の概要: Acoustic and perceptual differences between standard and accented Chinese speech and their voice clones
- arxiv url: http://arxiv.org/abs/2604.01562v1
- Date: Thu, 02 Apr 2026 03:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.205256
- Title: Acoustic and perceptual differences between standard and accented Chinese speech and their voice clones
- Title(参考訳): 標準中国語とアクセント中国語の音響的・知覚的差異とその音声クローン
- Authors: Tianle Yang, Chengzhe Sun, Phil Rose, Siwei Lyu,
- Abstract要約: 我々は,マンダリン音声とその音声クローンを,計算と知覚の複合設計を用いて比較した。
埋め込みに基づく分析では、システム間での原クローン距離に信頼性のあるアクセント付き標準差は示されていない。
その結果, アクセントの変動は, 既成話者埋め込み距離に反映されない場合でも, 音声のクローン化において認識された同一性マッチングと不明瞭性を形作ることができることがわかった。
- 参考スコア(独自算出の注目度): 23.08569741275153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice cloning is often evaluated in terms of overall quality, but less is known about accent preservation and its perceptual consequences. We compare standard and heavily accented Mandarin speech and their voice clones using a combined computational and perceptual design. Embedding-based analyses show no reliable accented-standard difference in original-clone distances across systems. In the perception study, clones are rated as more similar to their originals for standard than for accented speakers, and intelligibility increases from original to clone, with a larger gain for accented speech. These results show that accent variation can shape perceived identity match and intelligibility in voice cloning even when it is not reflected in an off-the-shelf speaker-embedding distance, and they motivate evaluating speaker identity preservation and accent preservation as separable dimensions.
- Abstract(参考訳): 音声のクローニングは、全体的な品質の観点から評価されることが多いが、アクセント保存とその知覚的結果についてはあまり知られていない。
我々は,マンダリン音声とその音声クローンを,計算と知覚の複合設計を用いて比較した。
埋め込みに基づく分析では、システム間での原クローン距離に信頼性のあるアクセント付き標準差は示されていない。
知覚研究において、クローンはアクセント付き話者よりも標準語によく似ていると評価され、アクセント付き音声ではより多く、オリジナル語からクローン語への理解度が増大する。
これらの結果から, アクセントの変動は, 既成話者埋め込み距離に反映されない場合でも, 音声のクローン化において認識されたアイデンティティマッチングと不明瞭さを形作ることができ, アクセントの保存とアクセントの保存を分離可能な次元として評価する動機となった。
関連論文リスト
- Pairwise Evaluation of Accent Similarity in Speech Synthesis [11.513055793492418]
アクセント類似度に対する主観的評価法と客観的評価法の両方を強化することを目的としている。
我々は、より少ないリスナーと低コストで高い統計的重要性を実現するコンポーネントを追加することで、XABリスニングテストの洗練を図る。
母音フォルマントと音韻後生音との距離に基づいて発音関連指標を用いてアクセント生成を評価する。
論文 参考訳(メタデータ) (2025-05-20T14:23:50Z) - Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Voice-preserving Zero-shot Multiple Accent Conversion [14.218374374305421]
アクセント変換システムは、話者のアクセントを変更するが、その話者の音声アイデンティティを保持する。
我々は,他の音響特性を維持しつつ,アクセント依存的特徴をアンタングル化するために,対角学習を用いる。
我々のモデルは、ターゲットのアクセントに近づき、元の話者のように聞こえる音声を生成する。
論文 参考訳(メタデータ) (2022-11-23T19:51:16Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z) - Defending Your Voice: Adversarial Attack on Voice Conversion [70.19396655909455]
音声変換に対する対人攻撃を最初に行う試みについて報告する。
音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。
その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
論文 参考訳(メタデータ) (2020-05-18T14:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。