論文の概要: Can we reconstruct a dysarthric voice with the large speech model Parler TTS?
- arxiv url: http://arxiv.org/abs/2506.04397v1
- Date: Wed, 04 Jun 2025 19:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.395605
- Title: Can we reconstruct a dysarthric voice with the large speech model Parler TTS?
- Title(参考訳): 大規模音声モデルParler TTSを用いて変形性音声を再構成できるか?
- Authors: Ariadna Sanchez, Simon King,
- Abstract要約: 我々は、その状態が始まる前に、変形性スピーカーの声の近似を生成する。
我々は,現在最先端の大規模音声モデルであるParler TTSが話者識別を維持しつつ,理解不能な音声を生成することができるかどうかを検討する。
- 参考スコア(独自算出の注目度): 11.547937373256921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech disorders can make communication hard or even impossible for those who develop them. Personalised Text-to-Speech is an attractive option as a communication aid. We attempt voice reconstruction using a large speech model, with which we generate an approximation of a dysarthric speaker's voice prior to the onset of their condition. In particular, we investigate whether a state-of-the-art large speech model, Parler TTS, can generate intelligible speech while maintaining speaker identity. We curate a dataset and annotate it with relevant speaker and intelligibility information, and use this to fine-tune the model. Our results show that the model can indeed learn to generate from the distribution of this challenging data, but struggles to control intelligibility and to maintain consistent speaker identity. We propose future directions to improve controllability of this class of model, for the voice reconstruction task.
- Abstract(参考訳): 言語障害は、それらを開発する人々にとって、コミュニケーションを困難にしたり、あるいは不可能にする可能性がある。
Personalized Text-to-Speechは、コミュニケーション支援として魅力的な選択肢だ。
そこで我々は,大口径音声モデルを用いて音声再構成を試み,その状態の開始前に変形性話者の声の近似を生成する。
特に,現在最先端の大規模音声モデルであるParler TTSが話者識別を維持しつつ,理解不能な音声を生成できるかどうかを検討する。
データセットをキュレートし、関連する話者や知性情報に注釈を付け、これを使ってモデルを微調整する。
この結果から,本モデルでは,この難解なデータの分布から生成することが学べるが,知性制御や一貫した話者識別の維持に苦慮していることがわかった。
音声再構成タスクにおいて,このようなモデルの制御性を改善するための今後の方向性を提案する。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models [3.1511847280063696]
音声可能な基礎モデルは、適切なプロンプトを用いて自動音声認識以外のタスクを実行することができる。
音声プロンプト付き大規模言語モデルの開発により、さらに大きな制御オプションが生まれる可能性がある。
この柔軟性により、システムはモデル制御の敵攻撃の影響を受けやすいことが実証された。
論文 参考訳(メタデータ) (2024-07-05T13:04:31Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - Synthesizing Personalized Non-speech Vocalization from Discrete Speech
Representations [3.0016140723286457]
非音声発声モデル(NSV)をテキスト音声タスクとして定式化し,その妥当性を検証した。
具体的には,NSVにおけるHUBERT音声単位の音声表現性を評価し,話者の音色を制御できることを検証した。
論文 参考訳(メタデータ) (2022-06-25T14:27:10Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。