論文の概要: WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling
- arxiv url: http://arxiv.org/abs/2605.06407v1
- Date: Thu, 07 May 2026 15:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.935974
- Title: WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling
- Title(参考訳): WavCube:意味的・音響的関節モデリングによる理解・生成のための音声表現の統合
- Authors: Guanrou Yang, Tian Tan, Qian Chen, Zhikang Niu, Yakun Song, Ziyang Ma, Yushen Chen, Zeyu Xie, Tianrui Wang, Yifan Yang, Wenxi Chen, Qi Chen, Wenrui Liu, Shan Yang, Xie Chen,
- Abstract要約: WavCubeはSSL音声エンコーダから派生したコンパクトな連続ラテントである。
言語理解、再構築、生成を同時にサポートする。
試行では、最先端のゼロショットTSパフォーマンスと、トレーニングコンバージェンスを著しく高速化することを示している。
- 参考スコア(独自算出の注目度): 35.33131758542107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating speech understanding and generation is a pivotal step toward building unified speech models. However, the different representations required for these two tasks currently pose significant compatibility challenges. Typically, semantics-oriented features are learned from self-supervised learning (SSL), and acoustic-oriented features from reconstruction. Such fragmented representations hinder the realization of truly unified speech systems. We present WavCube, a compact continuous latent derived from an SSL speech encoder that simultaneously supports speech understanding, reconstruction, and generation. WavCube employs a two-stage training scheme. Stage 1 trains a semantic bottleneck to filter off-manifold redundancy that makes raw SSL features intractable for diffusion. Stage 2 injects fine-grained acoustic details via end-to-end reconstruction, while a semantic anchoring loss ensures the representation remains grounded within its original semantic manifold. Comprehensive experiments show that WavCube closely approaches WavLM performance on SUPERB despite an 8x dimensional compression, attains reconstruction quality on par with existing acoustic representations, delivers state-of-the-art zero-shot TTS performance with markedly faster training convergence, and excels in speech enhancement, separation, and voice conversion tasks on the SUPERB-SG benchmark. Systematic ablations reveal that WavCube's two-stage recipe resolves two intrinsic flaws of SSL features for generative modeling, paving the way for future unified speech systems. Codes and checkpoints are available at https://github.com/yanghaha0908/WavCube.
- Abstract(参考訳): 音声理解と生成の統合は、統合された音声モデルを構築するための重要なステップである。
しかしながら、これらの2つのタスクに要求される異なる表現は、現在、大きな互換性上の課題を生じさせている。
通常、セマンティクス指向の機能は自己教師付き学習(SSL)から学習され、音響指向の機能は再構成から学習される。
このような断片化表現は、真に統一された音声システムの実現を妨げる。
本稿では,音声理解,再構築,生成を同時にサポートするSSL音声エンコーダから導出したコンパクトな連続ラテントであるWavCubeについて述べる。
WavCubeは2段階のトレーニングスキームを採用している。
ステージ1は意味的なボトルネックをトレーニングし、オフマンド冗長性をフィルタリングすることで、生のSSL機能を拡散しやすくする。
ステージ2は、エンド・ツー・エンドの再構成によって微細な音響的詳細を注入する一方、セマンティックアンカリング損失は、その表現が元のセマンティック・多様体の中に埋もれていることを保証している。
総合的な実験により、WavCubeは8次元圧縮にもかかわらず SUPERB上でのWavLM性能に近づき、既存の音響表現に匹敵する再現品質を達成し、訓練収束を著しく高速化し、SUPERB-SGベンチマークでの音声強調、分離、音声変換タスクに優れ、最先端のゼロショットTTS性能を提供することが示された。
体系的なアブリケーションにより、WavCubeの2段階のレシピは、生成的モデリングのためのSSL機能の固有の2つの欠陥を解決し、将来の統一音声システムへの道を開いた。
コードとチェックポイントはhttps://github.com/yanghaha0908/WavCube.comで入手できる。
関連論文リスト
- Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis [57.5830191022097]
Text-to-VecモジュールはテキストからWav2Vec2埋め込みを生成する。
We adopt a two-stage training: Pretraining on Wav2Vec2 embeddeddings and finetuning on TTS outputs。
実験により、TS予測潜伏特性の条件付けはカスケードパイプラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-07T17:07:56Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR [35.710735895190844]
ノイズロスASRの歪みを低減した特徴レベルSEを実装するために,Wav2codeという自己教師型フレームワークを提案する。
そこで本研究では,入力ノイズ表現のグローバル依存性をモデル化し,クリーンなコードを正確に予測するトランスフォーマーベースのコード予測器を提案する。
合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-04-11T04:46:12Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。