論文の概要: ParaSpeechCLAP: A Dual-Encoder Speech-Text Model for Rich Stylistic Language-Audio Pretraining
- arxiv url: http://arxiv.org/abs/2603.28737v1
- Date: Mon, 30 Mar 2026 17:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.548443
- Title: ParaSpeechCLAP: A Dual-Encoder Speech-Text Model for Rich Stylistic Language-Audio Pretraining
- Title(参考訳): ParaSpeechCLAP:リッチスティリスティック言語のためのデュアルエンコーダ音声テキストモデル
- Authors: Anuj Diwan, Eunsol Choi, David Harwath,
- Abstract要約: ParaSpeechCLAPは、音声とテキストスタイルのキャプションを共通の埋め込み空間にマッピングする、二重エンコーダのコントラストモデルである。
我々は、ParaSpeechCLAP-IntrinsicおよびParaSpeechCLAP-Situationalモデルを、統一されたParaSpeechCLAP-Combinedモデルと共に訓練する。
- 参考スコア(独自算出の注目度): 54.15873111975667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ParaSpeechCLAP, a dual-encoder contrastive model that maps speech and text style captions into a common embedding space, supporting a wide range of intrinsic (speaker-level) and situational (utterance-level) descriptors (such as pitch, texture and emotion) far beyond the narrow set handled by existing models. We train specialized ParaSpeechCLAP-Intrinsic and ParaSpeechCLAP-Situational models alongside a unified ParaSpeechCLAP-Combined model, finding that specialization yields stronger performance on individual style dimensions while the unified model excels on compositional evaluation. We further show that ParaSpeechCLAP-Intrinsic benefits from an additional classification loss and class-balanced training. We demonstrate our models' performance on style caption retrieval, speech attribute classification and as an inference-time reward model that improves style-prompted TTS without additional training. ParaSpeechCLAP outperforms baselines on most metrics across all three applications. Our models and code are released at https://github.com/ajd12342/paraspeechclap .
- Abstract(参考訳): 音声とテキストスタイルのキャプションを共通の埋め込み空間にマッピングし、既存のモデルで処理される狭い範囲を超えて、多様な内在的(話者レベル)および状況的(発話レベル)記述子(ピッチ、テクスチャ、感情など)をサポートする、二重エンコーダのコントラストモデルであるParaSpeechCLAPを紹介する。
我々は、ParaSpeechCLAP-IntrinsicおよびParaSpeechCLAP-Situationalモデルと統合されたParaSpeechCLAP-Combinedモデルを訓練し、統一されたモデルが構成評価に優れているのに対して、特殊化が個々のスタイルの寸法に対してより優れた性能をもたらすことを発見した。
さらに、ParaSpeechCLAP-Intrinsicの利点として、新たな分類損失とクラスバランストレーニングがあげられる。
提案するモデルの性能は,文体字幕検索,音声属性分類,および追加の訓練を伴わずに,文体プロンプトTTSを改善する推論時間報酬モデルで実証する。
ParaSpeechCLAPは、3つのアプリケーションすべてで、ほとんどのメトリクスでベースラインを上回ります。
私たちのモデルとコードはhttps://github.com/ajd12342/paraspeechclapでリリースされています。
関連論文リスト
- Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T13:39:37Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion
and Adversarial Training with Large Speech Language Models [19.029030168939354]
StyleTTS 2は、大きな音声言語モデル(SLM)によるスタイル拡散と対角訓練を活用して、人間レベルのTS合成を実現するテキスト音声合成(TTS)モデルである。
StyleTTS 2は、単一話者のLJSpeechデータセット上の人間の記録を上回り、ネイティブ英語話者によって判断されるマルチ話者のVCTKデータセットにマッチする。
この研究は、単一話者と複数話者のデータセット上で初めての人間レベルのTSを実現し、大きなSLMを用いたスタイル拡散と対角訓練の可能性を示した。
論文 参考訳(メタデータ) (2023-06-13T11:04:43Z) - A Systematic Comparison of Phonetic Aware Techniques for Speech
Enhancement [20.329872147913584]
音声強調モデルにおける音声情報の統合方法の比較を行った。
異なる音声コンテンツモデルと様々な特徴注入技術が性能向上に与える影響を観察する。
論文 参考訳(メタデータ) (2022-06-22T12:00:50Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-06T17:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。