論文の概要: Pairwise Evaluation of Accent Similarity in Speech Synthesis
- arxiv url: http://arxiv.org/abs/2505.14410v1
- Date: Tue, 20 May 2025 14:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.350062
- Title: Pairwise Evaluation of Accent Similarity in Speech Synthesis
- Title(参考訳): 音声合成におけるアクセント類似性のペアワイズ評価
- Authors: Jinzuomu Zhong, Suyuan Liu, Dan Wells, Korin Richmond,
- Abstract要約: アクセント類似度に対する主観的評価法と客観的評価法の両方を強化することを目的としている。
我々は、より少ないリスナーと低コストで高い統計的重要性を実現するコンポーネントを追加することで、XABリスニングテストの洗練を図る。
母音フォルマントと音韻後生音との距離に基づいて発音関連指標を用いてアクセント生成を評価する。
- 参考スコア(独自算出の注目度): 11.513055793492418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite growing interest in generating high-fidelity accents, evaluating accent similarity in speech synthesis has been underexplored. We aim to enhance both subjective and objective evaluation methods for accent similarity. Subjectively, we refine the XAB listening test by adding components that achieve higher statistical significance with fewer listeners and lower costs. Our method involves providing listeners with transcriptions, having them highlight perceived accent differences, and implementing meticulous screening for reliability. Objectively, we utilise pronunciation-related metrics, based on distances between vowel formants and phonetic posteriorgrams, to evaluate accent generation. Comparative experiments reveal that these metrics, alongside accent similarity, speaker similarity, and Mel Cepstral Distortion, can be used. Moreover, our findings underscore significant limitations of common metrics like Word Error Rate in assessing underrepresented accents.
- Abstract(参考訳): 高忠実度アクセント生成への関心が高まっているにもかかわらず、音声合成におけるアクセント類似性の評価は過小評価されている。
アクセント類似度に対する主観的評価法と客観的評価法の両方を強化することを目的としている。
主観的には、より少ないリスナーと低コストで高い統計的意義を達成できるコンポーネントを追加することで、XABリスニングテストの洗練を図る。
提案手法は,聴取者に文字の書き起こしを提供し,アクセントの違いを強調させ,信頼性を高めるための精密なスクリーニングを行う。
本研究の目的は,母音フォルマントと音韻後生音との距離に基づく発音関連指標を用いてアクセント生成を評価することである。
比較実験により、アクセントの類似性、話者の類似性、メルケプストラル歪みが利用できることが明らかになった。
さらに, 単語誤り率などの一般的な指標では, アクセントの過小評価において, 有意な限界が認められた。
関連論文リスト
- Representation of perceived prosodic similarity of conversational feedback [3.7277730514654555]
スペクトルおよび自己教師型音声表現は、抽出されたピッチ特徴よりも韻律を符号化する。
コントラスト学習を通じて、人間の知覚に表現をさらに凝縮し、整列させることが可能である。
論文 参考訳(メタデータ) (2025-05-19T15:47:51Z) - Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Acoustic Feature Mixup for Balanced Multi-aspect Pronunciation Assessment [7.519788903817844]
データ不足とスコア・ラベルの不均衡に対処する2つの音響特徴混合手法を提案する。
音声認識結果と元の応答音素を比較し,誤発音のヒントを与える。
論文 参考訳(メタデータ) (2024-06-22T03:56:29Z) - Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and
Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。
提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文 参考訳(メタデータ) (2024-02-11T02:26:43Z) - Transfer the linguistic representations from TTS to accent conversion
with non-parallel data [7.376032484438044]
アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。
本稿ではアクセントに依存しない言語表現を学習するアクセント変換のための新しい非自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-07T16:39:34Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - What You Hear Is What You See: Audio Quality Metrics From Image Quality
Metrics [44.659718609385315]
そこで本研究では,音声信号の評価に最先端画像知覚メトリクスを応用し,スペクトログラムとして表現することの実現可能性について検討する。
我々は、音響信号の特異性を考慮するために、精神音響学的に妥当なアーキテクチャを持つメトリクスの1つをカスタマイズする。
提案手法の有効性を音楽データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-05-19T10:43:57Z) - Phonetic Word Embeddings [1.2192936362342826]
本稿では,人間の音知覚からモチベーションを受ける単語間の音声的類似性を計算するための新しい手法を提案する。
この計量は、類似の発声語をまとめる連続ベクトル埋め込み空間を学ぶために用いられる。
本手法の有効性を2つの異なる言語(ヒンディー語、ヒンディー語)で示し、過去の報告よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-09-30T01:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。