論文の概要: DeepASMR: LLM-Based Zero-Shot ASMR Speech Generation for Anyone of Any Voice
- arxiv url: http://arxiv.org/abs/2601.15596v1
- Date: Thu, 22 Jan 2026 02:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.473518
- Title: DeepASMR: LLM-Based Zero-Shot ASMR Speech Generation for Anyone of Any Voice
- Title(参考訳): DeepASMR: LLMベースの任意の音声のためのゼロショットASMR音声生成
- Authors: Leying Zhang, Tingxiao Zhou, Haiyang Sun, Mengxiao Bi, Yanmin Qian,
- Abstract要約: ゼロショットASMR生成用に設計された最初のフレームワークであるDeepASMRを紹介する。
話者の通常の読み上げスタイルの音声の1つの短いスニペットは、声質の高いASMRを合成するのに十分である。
DeepASMRは、あらゆる声に対してASMR生成における最先端の自然性とスタイルの忠実性を達成する。
- 参考スコア(独自算出の注目度): 48.41417482416401
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While modern Text-to-Speech (TTS) systems achieve high fidelity for read-style speech, they struggle to generate Autonomous Sensory Meridian Response (ASMR), a specialized, low-intensity speech style essential for relaxation. The inherent challenges include ASMR's subtle, often unvoiced characteristics and the demand for zero-shot speaker adaptation. In this paper, we introduce DeepASMR, the first framework designed for zero-shot ASMR generation. We demonstrate that a single short snippet of a speaker's ordinary, read-style speech is sufficient to synthesize high-fidelity ASMR in their voice, eliminating the need for whispered training data from the target speaker. Methodologically, we first identify that discrete speech tokens provide a soft factorization of ASMR style from speaker timbre. Leveraging this insight, we propose a two-stage pipeline incorporating a Large Language Model (LLM) for content-style encoding and a flow-matching acoustic decoder for timbre reconstruction. Furthermore, we contribute DeepASMR-DB, a comprehensive 670-hour English-Chinese multi-speaker ASMR speech corpus, and introduce a novel evaluation protocol integrating objective metrics, human listening tests, LLM-based scoring and unvoiced speech analysis. Extensive experiments confirm that DeepASMR achieves state-of-the-art naturalness and style fidelity in ASMR generation for anyone of any voice, while maintaining competitive performance on normal speech synthesis.
- Abstract(参考訳): 現代のテキスト音声合成システム(TTS)は、読み上げスタイルの音声に対して高い忠実性を達成する一方で、緩和に不可欠な特殊で低強度の音声スタイルである自律感覚メリディアン応答(ASMR)を生成するのに苦労している。
固有の課題は、ASMRの微妙で、しばしば無声な特徴とゼロショット話者適応の需要である。
本稿では,ゼロショットASMR生成のための最初のフレームワークであるDeepASMRを紹介する。
話者の通常の読み上げスタイルの音声の1つの短いスニペットは、声質の高いASMRを合成するのに十分であることを示す。
提案手法は,まず,個別の音声トークンが話者の音色からASMRスタイルをソフトに分解できることを同定する。
この知見を生かして、コンテンツスタイル符号化のためのLarge Language Model(LLM)と、音色再構成のためのフローマッチング音響デコーダを組み合わせた2段階パイプラインを提案する。
さらに,670時間の英語・中国語多話者ASMR音声コーパスであるDeepASMR-DBをコントリビュートし,客観評価,ヒューマンリスニングテスト,LLMに基づくスコアリング,無声音声分析を統合した新しい評価プロトコルを提案する。
広範囲な実験により、DeepASMRは通常の音声合成における競合性能を維持しつつ、ASMR生成における最先端の自然性とスタイルの忠実性を達成することが確認された。
関連論文リスト
- LoRP-TTS: Low-Rank Personalized Text-To-Speech [0.0]
音声合成モデルは、テキストを自然な音声に変換する。
Low-Rank Adaptation (LoRA) は、ノイズの多い環境で自然発話の単一記録をプロンプトとしてうまく利用することができる。
論文 参考訳(メタデータ) (2025-02-11T14:00:12Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。