Fugu-MT 論文翻訳(概要): Enhancing the Stability of LLM-based Speech Generation Systems through Self-Supervised Representations

論文の概要: Enhancing the Stability of LLM-based Speech Generation Systems through Self-Supervised Representations

arxiv url: http://arxiv.org/abs/2402.03407v1
Date: Mon, 5 Feb 2024 15:08:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 18:22:49.110620
Title: Enhancing the Stability of LLM-based Speech Generation Systems through Self-Supervised Representations
Title（参考訳）: 自己教師付き表現によるLLM音声生成システムの安定性向上
Authors: \'Alvaro Mart\'in-Cortinas, Daniel S\'aez-Trigueros, Iv\'an Vall\'es-P\'erez, Biel Tura-Vecino, Piotr Bili\'nski, Mateusz Lajszczak, Grzegorz Beringer, Roberto Barra-Chicote, Jaime Lorenzo-Trueba
Abstract要約: 自己教師型音声変換(VC)アーキテクチャは、話者IDや記録条件などの定常的な特徴とは独立して、コンテンツなどのトランジッショナルな特徴を符号化し、話者不整合表現を作成するために使用することができる。テキスト・トゥ・スポーチ(TTS)のためのLLMの訓練に話者区別符号を使用すると、LLMは人間と同様にテキストからのみ音声の内容とスタイルを生成することができ、一方、話者識別はVCモデルのデコーダによって提供される。結果から,LLMの自己教師表現による訓練が4.7ppの改善をもたらすことが明らかとなった。
参考スコア（独自算出の注目度）: 14.437646262239612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are one of the most promising technologies for the next era of speech generation systems, due to their scalability and in-context learning capabilities. Nevertheless, they suffer from multiple stability issues at inference time, such as hallucinations, content skipping or speech repetitions. In this work, we introduce a new self-supervised Voice Conversion (VC) architecture which can be used to learn to encode transitory features, such as content, separately from stationary ones, such as speaker ID or recording conditions, creating speaker-disentangled representations. Using speaker-disentangled codes to train LLMs for text-to-speech (TTS) allows the LLM to generate the content and the style of the speech only from the text, similarly to humans, while the speaker identity is provided by the decoder of the VC model. Results show that LLMs trained over speaker-disentangled self-supervised representations provide an improvement of 4.7pp in speaker similarity over SOTA entangled representations, and a word error rate (WER) 5.4pp lower. Furthermore, they achieve higher naturalness than human recordings of the LibriTTS test-other dataset. Finally, we show that using explicit reference embedding negatively impacts intelligibility (stability), with WER increasing by 14pp compared to the model that only uses text to infer the style.
Abstract（参考訳）: 大規模言語モデル(LLM)は、スケーラビリティと文脈内学習能力のため、次世代の音声生成システムにおいて最も有望な技術の一つである。それでも、幻覚、コンテンツのスキップ、音声の繰り返しなど、推論時に複数の安定性の問題に苦しんでいる。本研究では,話者IDや記録条件などの定常的な特徴とは独立して,コンテンツなどのトランジショナルな特徴を符号化し,話者不整合表現を生成するための,自己教師型音声変換(VC)アーキテクチャを提案する。テキスト・トゥ・スポーチ(TTS)のためのLLMの訓練に話者区別符号を使用すると、LLMは人間と同様にテキストからのみ音声の内容とスタイルを生成することができ、一方、話者識別はVCモデルのデコーダによって提供される。以上の結果から,LLM は SOTA の絡み合った表現よりも4.7pp の話者類似性が向上し,単語誤り率 (WER) 5.4pp が低くなった。さらに、LibriTTSテスト他のデータセットの人間の記録よりも自然性が高い。最後に、明示的な参照埋め込みは、スタイルを推論するためにテキストのみを使用するモデルと比較して、werが14pp増加することで、知性(安定性)に悪影響を及ぼすことを示した。

関連論文リスト

What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。 LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。 SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文参考訳（メタデータ） (2025-06-14T15:26:31Z)
Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance [9.87139502863569]
Koel-TTSは拡張エンコーダデコーダトランスフォーマーTSモデルのスイートである。拡張エンコーダデコーダトランスフォーマーTSモデルのスイートであるKoel-TTSを紹介する。
論文参考訳（メタデータ） (2025-02-07T06:47:11Z)
DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。 DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文参考訳（メタデータ） (2024-10-31T17:43:13Z)
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文参考訳（メタデータ） (2024-10-09T05:04:31Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。 We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment [19.48653924804823]
大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) は, 大規模音声データセットの処理や, 新しい話者に対する自然な音声生成において, 顕著な能力を示した。しかし、LLMベースのTSモデルは、生成した出力が繰り返し単語、欠落した単語、不一致した音声を含むことができるため、堅牢ではない。エンコーダ・デコーダ・トランスフォーマーモデルを用いてこれらの課題を検証し、与えられたテキストに対する音声トークンの予測訓練において、そのようなモデルにおける特定のクロスアテンションヘッドが暗黙的にテキストと音声アライメントを学習することを確認する。
論文参考訳（メタデータ） (2024-06-25T22:18:52Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)
ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文参考訳（メタデータ） (2023-02-16T08:10:41Z)
Training Robust Zero-Shot Voice Conversion Models with Self-supervised Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文参考訳（メタデータ） (2021-12-08T17:27:39Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。