論文の概要: LoRP-TTS: Low-Rank Personalized Text-To-Speech
- arxiv url: http://arxiv.org/abs/2502.07562v1
- Date: Tue, 11 Feb 2025 14:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:06:12.792730
- Title: LoRP-TTS: Low-Rank Personalized Text-To-Speech
- Title(参考訳): LoRP-TTS: 低ランクのパーソナライズされたテキスト対音声
- Authors: Łukasz Bondaruk, Jakub Kubiak,
- Abstract要約: 音声合成モデルは、テキストを自然な音声に変換する。
Low-Rank Adaptation (LoRA) は、ノイズの多い環境で自然発話の単一記録をプロンプトとしてうまく利用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Speech synthesis models convert written text into natural-sounding audio. While earlier models were limited to a single speaker, recent advancements have led to the development of zero-shot systems that generate realistic speech from a wide range of speakers using their voices as additional prompts. However, they still struggle with imitating non-studio-quality samples that differ significantly from the training datasets. In this work, we demonstrate that utilizing Low-Rank Adaptation (LoRA) allows us to successfully use even single recordings of spontaneous speech in noisy environments as prompts. This approach enhances speaker similarity by up to $30pp$ while preserving content and naturalness. It represents a significant step toward creating truly diverse speech corpora, that is crucial in all speech-related tasks.
- Abstract(参考訳): 音声合成モデルは、テキストを自然な音声に変換する。
初期のモデルは単一の話者に限られていたが、近年の進歩により、音声を付加的なプロンプトとして使用して、幅広い話者から現実的な音声を生成するゼロショットシステムの開発につながっている。
しかし、トレーニングデータセットと大きく異なる非スタディオ品質のサンプルの模倣に苦慮している。
本研究では,低ランク適応(LoRA)を用いることで,雑音の多い環境下での自然発話の単一記録を効果的に活用できることを実証する。
このアプローチは、コンテンツと自然性を保ちながら、話者の類似性を最大$30pp$まで向上させる。
これは、あらゆる音声関連タスクにおいて重要な、真に多様な音声コーパスを作成するための重要なステップである。
関連論文リスト
- IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-to-Speech
Using Natural Language Descriptions [21.15647416266187]
本稿では,自然言語記述を用いた話者識別制御が可能な音声合成システムPromptTTS++を提案する。
本稿では,話し方とほぼ独立に設計された音声特性を記述した話者プロンプトの概念を紹介する。
主観評価の結果,提案手法は話者プロンプトを使わずに話者特性を制御できることがわかった。
論文 参考訳(メタデータ) (2023-09-15T04:11:37Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech
Synthesis and Editing [31.666920933058144]
本稿では,テキスト入力と音響テキストアライメントによるマスク付き音響信号の再構成を行うアライメント・アウェア・アウェア・アコースティック・テキスト・プレトレーニング(A$3$T)を提案する。
実験では、A$3$Tは、音声編集におけるSOTAモデルよりも優れており、外部話者検証モデルなしでは、マルチスピーカ音声合成を改善する。
論文 参考訳(メタデータ) (2022-03-18T01:36:25Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。