論文の概要: ParaMETA: Towards Learning Disentangled Paralinguistic Speaking Styles Representations from Speech
- arxiv url: http://arxiv.org/abs/2601.12289v1
- Date: Sun, 18 Jan 2026 07:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.555048
- Title: ParaMETA: Towards Learning Disentangled Paralinguistic Speaking Styles Representations from Speech
- Title(参考訳): ParaMETA: 音声からの非言語的話し方表現の学習に向けて
- Authors: Haowei Lou, Hye-young Paik, Wen Hu, Lina Yao,
- Abstract要約: ParaMETAは、発話スタイルを直接学習し、制御するためのフレームワークである。
音声を各スタイルの専用部分空間に投影することで、アンタングル付きタスク固有の埋め込みを学習する。
音声とテキストベースのプロンプトをサポートしており、ユーザーは他を保存しながら、ある話し方を変更することができる。
- 参考スコア(独自算出の注目度): 15.969757677847504
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning representative embeddings for different types of speaking styles, such as emotion, age, and gender, is critical for both recognition tasks (e.g., cognitive computing and human-computer interaction) and generative tasks (e.g., style-controllable speech generation). In this work, we introduce ParaMETA, a unified and flexible framework for learning and controlling speaking styles directly from speech. Unlike existing methods that rely on single-task models or cross-modal alignment, ParaMETA learns disentangled, task-specific embeddings by projecting speech into dedicated subspaces for each type of style. This design reduces inter-task interference, mitigates negative transfer, and allows a single model to handle multiple paralinguistic tasks such as emotion, gender, age, and language classification. Beyond recognition, ParaMETA enables fine-grained style control in Text-To-Speech (TTS) generative models. It supports both speech- and text-based prompting and allows users to modify one speaking styles while preserving others. Extensive experiments demonstrate that ParaMETA outperforms strong baselines in classification accuracy and generates more natural and expressive speech, while maintaining a lightweight and efficient model suitable for real-world applications.
- Abstract(参考訳): 感情、年齢、性別など、さまざまなタイプの話し方に対する代表的埋め込みを学習することは、認識タスク(認知コンピューティングや人間とコンピュータの相互作用など)と生成タスク(例えば、スタイル制御可能な音声生成)の両方に不可欠である。
本研究では,音声から発話スタイルを直接学習し,制御するための統一的かつ柔軟なフレームワークであるParaMETAを紹介する。
シングルタスクモデルやクロスモーダルアライメントに依存する既存の方法とは異なり、ParaMETAは、各タイプのスタイルに専用のサブスペースに音声を投影することで、アンタングルされたタスク固有の埋め込みを学ぶ。
この設計は、タスク間の干渉を軽減し、負の移動を緩和し、単一のモデルで感情、性別、年齢、言語分類などの複数のパラ言語的タスクを処理できるようにする。
認識以外にも、ParaMETAはText-To-Speech(TTS)生成モデルにおいて、きめ細かいスタイル制御を可能にする。
音声とテキストベースのプロンプトをサポートし、ユーザーは他の言語を保存しながら1つの話し方を変更することができる。
広汎な実験により、ParaMETAは分類精度において強いベースラインを上回り、より自然で表現力のある音声を生成する一方で、現実の用途に適した軽量で効率的なモデルを維持していることが示された。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions [66.93932684284695]
音声理解と生成のための統一パラダイムとして、音声言語モデル(SLM)が登場した。
音声スタイル適応(VSA)は,SLMが話し方を変更することができるかどうかを調べる新しいタスクである。
音響属性,自然言語命令,ロールプレイ,暗黙の共感の4つのカテゴリを網羅したベンチマークであるVStyleを提案する。
また,Large Audio Language Model as a Judge (LALM as a Judge) フレームワークを導入し,文章の忠実性,スタイルの忠実性,自然性に沿って出力を段階的に評価する。
論文 参考訳(メタデータ) (2025-09-09T14:28:58Z) - LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。
本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文 参考訳(メタデータ) (2024-09-05T16:57:39Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - ZS-MSTM: Zero-Shot Style Transfer for Gesture Animation driven by Text
and Speech using Adversarial Disentanglement of Multimodal Style Encoding [3.609538870261841]
韻律的特徴とテキストによって駆動されるジェスチャーを、異なる話者のスタイルで合成する機械学習手法を提案する。
本モデルでは,PATSデータベースからのマルチモーダルデータを用いたゼロショットマルチモーダル方式の転送を行う。
論文 参考訳(メタデータ) (2023-05-22T10:10:35Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。