論文の概要: MF-Speech: Achieving Fine-Grained and Compositional Control in Speech Generation via Factor Disentanglement
- arxiv url: http://arxiv.org/abs/2511.12074v2
- Date: Wed, 19 Nov 2025 14:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.093104
- Title: MF-Speech: Achieving Fine-Grained and Compositional Control in Speech Generation via Factor Disentanglement
- Title(参考訳): MF-Speech:因子アンタングルによる音声生成における微粒化と構成制御の実現
- Authors: Xinyue Yu, Youqing Fang, Pingyu Wu, Guoyang Ye, Wenbo Zhou, Weiming Zhang, Song Xiao,
- Abstract要約: 本稿では,MF-SpeechEncoderとMF-SpeechGeneratorの2つのコアコンポーネントからなる,MF-Speechと呼ばれる新しいフレームワークを提案する。
MF-SpeechEncoderは、元の音声信号をコンテンツ、音色、感情の非常に純粋な表現に分解するために、多目的最適化戦略を採用する。
MF-SpeechGeneratorは導体として機能し、動的融合と階層的スタイル適応正規化を通じてこれらの因子の精密で構成可能できめ細かい制御を実現する。
- 参考スコア(独自算出の注目度): 31.756885606945847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating expressive and controllable human speech is one of the core goals of generative artificial intelligence, but its progress has long been constrained by two fundamental challenges: the deep entanglement of speech factors and the coarse granularity of existing control mechanisms. To overcome these challenges, we have proposed a novel framework called MF-Speech, which consists of two core components: MF-SpeechEncoder and MF-SpeechGenerator. MF-SpeechEncoder acts as a factor purifier, adopting a multi-objective optimization strategy to decompose the original speech signal into highly pure and independent representations of content, timbre, and emotion. Subsequently, MF-SpeechGenerator functions as a conductor, achieving precise, composable and fine-grained control over these factors through dynamic fusion and Hierarchical Style Adaptive Normalization (HSAN). Experiments demonstrate that in the highly challenging multi-factor compositional speech generation task, MF-Speech significantly outperforms current state-of-the-art methods, achieving a lower word error rate (WER=4.67%), superior style control (SECS=0.5685, Corr=0.68), and the highest subjective evaluation scores(nMOS=3.96, sMOS_emotion=3.86, sMOS_style=3.78). Furthermore, the learned discrete factors exhibit strong transferability, demonstrating their significant potential as a general-purpose speech representation.
- Abstract(参考訳): 表現的かつ制御可能な人間の発話の生成は、生成的人工知能のコア目標の1つであるが、その進歩は、音声要因の深い絡み合いと、既存の制御機構の粗い粒度という、2つの根本的な課題によって長い間制約されてきた。
これらの課題を克服するため、MF-SpeechEncoderとMF-SpeechGeneratorの2つのコアコンポーネントからなるMF-Speechと呼ばれる新しいフレームワークを提案した。
MF-SpeechEncoderは、元の音声信号をコンテンツ、音色、感情の非常に純粋で独立した表現に分解するために、多目的最適化戦略を採用する。
その後、MF-SpeechGeneratorは導体として機能し、動的融合と階層型適応正規化(HSAN)を通じてこれらの因子の精密で構成可能できめ細かな制御を実現する。
実験により、MF-Speechは、非常に難しい多要素合成音声生成タスクにおいて、現在の最先端手法よりも優れており、単語誤り率(WER=4.67%)、優れたスタイル制御(SECS=0.5685, Corr=0.68)、最高の主観評価スコア(nMOS=3.96, sMOS_emotion=3.86, sMOS_style=3.78)を実現している。
さらに、学習された離散的要因は強い伝達可能性を示し、汎用的な音声表現として有意な可能性を証明している。
関連論文リスト
- What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。
提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。
我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文 参考訳(メタデータ) (2025-01-10T12:10:30Z) - DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。
拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。
モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - Adversarially learning disentangled speech representations for robust
multi-factor voice conversion [39.91395314356084]
本稿では,敵対的学習に基づくアンタングル型音声表現学習フレームワークを提案する。
内容、音色、リズム、ピッチを特徴付ける4つの音声表現を抽出し、さらに混乱させる。
実験の結果,提案手法はVCの頑健性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-01-30T08:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。