論文の概要: SpeechOp: Inference-Time Task Composition for Generative Speech Processing
- arxiv url: http://arxiv.org/abs/2509.14298v1
- Date: Wed, 17 Sep 2025 05:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.925961
- Title: SpeechOp: Inference-Time Task Composition for Generative Speech Processing
- Title(参考訳): SpeechOp: 生成音声処理のための推論時間タスク構成
- Authors: Justin Lovelace, Rithesh Kumar, Jiaqi Su, Ke Chen, Kilian Q Weinberger, Zeyu Jin,
- Abstract要約: SpeechOpは、幅広い音声タスクを実行できるユニバーサル音声処理装置である。
Inlicit Task Composingは、私たちの原則である推論時タスクコンポジションを通じて、SpeechOpの強化を支援する。
- 参考スコア(独自算出の注目度): 41.5053493629172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While generative Text-to-Speech (TTS) systems leverage vast ``in-the-wild" data to achieve remarkable success, speech-to-speech processing tasks like enhancement face data limitations, which lead data-hungry generative approaches to distort speech content and speaker identity. To bridge this gap, we present SpeechOp, a multi-task latent diffusion model that transforms pre-trained TTS models into a universal speech processor capable of performing a wide range of speech tasks and composing them in novel ways at inference time. By adapting a pre-trained TTS model, SpeechOp inherits a rich understanding of natural speech, accelerating training and improving S2S task quality, while simultaneously enhancing core TTS performance. Finally, we introduce Implicit Task Composition (ITC), a novel pipeline where ASR-derived transcripts (e.g., from Whisper) guide SpeechOp's enhancement via our principled inference-time task composition. ITC achieves state-of-the-art content preservation by robustly combining web-scale speech understanding with SpeechOp's generative capabilities. Audio samples are available at https://justinlovelace.github.io/projects/speechop
- Abstract(参考訳): 生成的テキスト音声(TTS)システムは、膨大な‘in-the-wild’データを利用して顕著な成功を収める一方で、顔データ制限の強化などの音声音声処理タスクは、音声内容の歪曲や話者識別にデータハングリー生成アプローチを導く。
このギャップを埋めるために,事前学習したTSモデルを,幅広い音声タスクを実行し,推論時に新しい方法で構成可能なユニバーサル音声プロセッサに変換するマルチタスク潜在拡散モデルであるSpeechOpを提案する。
事前訓練されたTSモデルを適用することで、SpeechOpは自然言語の豊富な理解を継承し、トレーニングを加速し、S2Sタスク品質を改善しながら、コアTS性能を同時に向上する。
最後に,ASR由来の書き起こし(例えばWhisperから)を原理化された推論時タスク合成によるSpeechOpの強化をガイドする新しいパイプラインであるImplicit Task composition (ITC)を紹介する。
ITCは、Webスケールの音声理解とSpeechOpの生成能力をしっかりと組み合わせることで、最先端のコンテンツ保存を実現する。
オーディオサンプルはhttps://justinlovelace.github.io/projects/speechopで入手できる。
関連論文リスト
- OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching [3.05024318465243]
OZSpeechは1ステップのサンプリングで最適な輸送条件流を探索する最初のTS法である。
提案手法は,各音声属性の正確なモデリングを可能にするために,トークン形式における音声の非交叉分解成分を演算する。
実験の結果,提案手法は,コンテンツ精度,自然性,韻律生成,話者スタイルの保存において,既存の手法よりも有望な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-19T07:31:55Z) - GRASS: Unified Generation Model for Speech-to-Semantic Tasks [7.044414457214718]
本稿では,音声データに対するタスク関連プロンプトに条件付きターゲットテキストを生成する統合エンドツーエンド(E2E)フレームワークを提案する。
提案モデルでは, 実体認識, 音声感情分析, 音声質問応答などを含む多くのベンチマークにおいて, 最先端のSOTA(State-of-the-art)結果が得られた。
音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。
論文 参考訳(メタデータ) (2023-09-06T06:44:26Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。