論文の概要: Voice Conversion for Lombard Speaking Style with Implicit and Explicit Acoustic Feature Conditioning
- arxiv url: http://arxiv.org/abs/2507.09310v1
- Date: Sat, 12 Jul 2025 14:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.960959
- Title: Voice Conversion for Lombard Speaking Style with Implicit and Explicit Acoustic Feature Conditioning
- Title(参考訳): 暗黙的・明示的音響特徴条件付きロンバルド発声スタイルの音声変換
- Authors: Dominika Woszczyk, Manuel Sam Ribeiro, Thomas Merritt, Daniel Korzekwa,
- Abstract要約: Lombard 話し方におけるテキスト音声合成システム(TTS)は、音声の全体的な可聴性を改善し、聴覚障害や雑音に有効である。
これらのモデルのトレーニングには大量のデータが必要である。
音声変換 (VC) は, ターゲット話者の発話スタイルにおける記録データがない場合に, TTS システムの訓練に有用な拡張手法であることが示されている。
- 参考スコア(独自算出の注目度): 10.486516427157058
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-to-Speech (TTS) systems in Lombard speaking style can improve the overall intelligibility of speech, useful for hearing loss and noisy conditions. However, training those models requires a large amount of data and the Lombard effect is challenging to record due to speaker and noise variability and tiring recording conditions. Voice conversion (VC) has been shown to be a useful augmentation technique to train TTS systems in the absence of recorded data from the target speaker in the target speaking style. In this paper, we are concerned with Lombard speaking style transfer. Our goal is to convert speaker identity while preserving the acoustic attributes that define the Lombard speaking style. We compare voice conversion models with implicit and explicit acoustic feature conditioning. We observe that our proposed implicit conditioning strategy achieves an intelligibility gain comparable to the model conditioned on explicit acoustic features, while also preserving speaker similarity.
- Abstract(参考訳): Lombard 話し方におけるテキスト音声合成システム(TTS)は、音声の全体的な可聴性を改善し、聴覚障害や雑音に有効である。
しかし、これらのモデルのトレーニングには大量のデータが必要である。
音声変換 (VC) は, ターゲット話者の発話スタイルにおける記録データがない場合に, TTS システムの訓練に有用な拡張手法であることが示されている。
本稿では,Lombardの発話スタイルの転送について検討する。
我々のゴールは、ランバードの話し方を定義する音響特性を保ちながら話者識別を変換することである。
音声変換モデルと暗黙的・明示的な音響特徴条件を比較した。
提案した暗黙的条件付け戦略は,話者の類似性を保ちながら,明示的音響特徴に基づくモデルに匹敵する可知性向上を実現する。
関連論文リスト
- Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion [53.26424100244925]
表現的音声変換は、話者識別と表現的属性の両方を対象音声から所定の音源音声に転送することを目的としている。
本研究では,条件付き変分オートエンコーダを用いた自己監督型非自己回帰型フレームワークを改良する。
論文 参考訳(メタデータ) (2025-06-04T14:42:12Z) - Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance [9.87139502863569]
Koel-TTSは拡張エンコーダデコーダトランスフォーマーTSモデルのスイートである。
拡張エンコーダデコーダトランスフォーマーTSモデルのスイートであるKoel-TTSを紹介する。
論文 参考訳(メタデータ) (2025-02-07T06:47:11Z) - SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Whispered and Lombard Neural Speech Synthesis [6.117432319400054]
合成音声が提示される環境を考慮して、テキストから音声までのシステムが望ましい。
そこで我々は,様々な話し方,すなわち正規語,ロンバルド語,ささやき声を提示し,比較した。
論文 参考訳(メタデータ) (2021-01-13T19:22:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。