論文の概要: Evaluating Methods for Ground-Truth-Free Foreign Accent Conversion
- arxiv url: http://arxiv.org/abs/2309.02133v1
- Date: Tue, 5 Sep 2023 11:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 15:13:40.392296
- Title: Evaluating Methods for Ground-Truth-Free Foreign Accent Conversion
- Title(参考訳): 地道自由外国人アクセント変換の評価法
- Authors: Wen-Chin Huang, Tomoki Toda
- Abstract要約: 外部アクセント変換(英: Foreign accent conversion, FAC)は、非母語話者のアクセント付き音声を、同じ話者アイデンティティを持つ母語話者に変換することを目的とした、音声変換(VC)の特殊な応用である。
本研究は,最近提案された3つの基本構造のないFACの評価手法であり,これらすべては,アクセントを適切に変換し,話者同一性を制御するために,シーケンス・ツー・シーケンス(seq2seq)と非並列VCモデルのパワーを活用することを目的としている。
- 参考スコア(独自算出の注目度): 43.97757799751764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foreign accent conversion (FAC) is a special application of voice conversion
(VC) which aims to convert the accented speech of a non-native speaker to a
native-sounding speech with the same speaker identity. FAC is difficult since
the native speech from the desired non-native speaker to be used as the
training target is impossible to collect. In this work, we evaluate three
recently proposed methods for ground-truth-free FAC, where all of them aim to
harness the power of sequence-to-sequence (seq2seq) and non-parallel VC models
to properly convert the accent and control the speaker identity. Our
experimental evaluation results show that no single method was significantly
better than the others in all evaluation axes, which is in contrast to
conclusions drawn in previous studies. We also explain the effectiveness of
these methods with the training input and output of the seq2seq model and
examine the design choice of the non-parallel VC model, and show that
intelligibility measures such as word error rates do not correlate well with
subjective accentedness. Finally, our implementation is open-sourced to promote
reproducible research and help future researchers improve upon the compared
systems.
- Abstract(参考訳): 外部アクセント変換(英: Foreign accent conversion, FAC)は、非ネイティブ話者のアクセント付き音声を、同じ話者アイデンティティを持つネイティブ音声に変換することを目的とした、音声変換(VC)の特殊な応用である。
FACは、学習対象として好まれる非ネイティブ話者からのネイティブ音声を収集することが不可能であるため、難しい。
本研究は,最近提案された3つの基本構造のないFACの評価手法であり,これらすべては,アクセントを適切に変換し,話者識別を制御するためにシーケンス・ツー・シーケンス(seq2seq)と非並列VCモデルのパワーを活用することを目的としている。
実験評価の結果,すべての評価軸において,先行研究の結論とは対照的に,他の方法に比べて有意な改善は認められなかった。
また,これらの手法の有効性をセック2セックモデルの学習入力と出力で説明し,非並列VCモデルの設計選択を検証し,単語誤り率などの知能度尺度が主観的アクセントとよく相関しないことを示す。
最後に、再現可能な研究を促進し、将来の研究者による比較システムの改善を支援するために、我々の実装をオープンソース化する。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Transfer the linguistic representations from TTS to accent conversion
with non-parallel data [7.376032484438044]
アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。
本稿ではアクセントに依存しない言語表現を学習するアクセント変換のための新しい非自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-07T16:39:34Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Supervised Acoustic Embeddings And Their Transferability Across
Languages [2.28438857884398]
音声認識においては、話者変動や雑音など無関係な要因を排除しつつ、入力信号の音声内容のモデル化が不可欠である。
自己教師付き事前学習は、教師付き音声認識と教師なし音声認識の両方を改善する方法として提案されている。
論文 参考訳(メタデータ) (2023-01-03T09:37:24Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages [10.61744395262441]
オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
論文 参考訳(メタデータ) (2021-03-26T16:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。