論文の概要: Robust TTS Training via Self-Purifying Flow Matching for the WildSpoof 2026 TTS Track
- arxiv url: http://arxiv.org/abs/2512.17293v1
- Date: Fri, 19 Dec 2025 07:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.280037
- Title: Robust TTS Training via Self-Purifying Flow Matching for the WildSpoof 2026 TTS Track
- Title(参考訳): WildSpoof 2026 TTSトラックの自己浄化流マッチングによるロバストTTSトレーニング
- Authors: June Young Yi, Hyeongju Kim, Juheon Lee,
- Abstract要約: 本稿では,WildSpoof Challenge TTS Track 用に開発された軽量テキスト音声合成システムについて述べる。
我々のアプローチは、最近リリースされたオープンウェイトTSモデルSupertonicをSPFM(Self-Purifying Flow Matching)で微調整することで、Wild音声へのロバストな適応を可能にする。
- 参考スコア(独自算出の注目度): 5.627981468468872
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a lightweight text-to-speech (TTS) system developed for the WildSpoof Challenge TTS Track. Our approach fine-tunes the recently released open-weight TTS model, \textit{Supertonic}\footnote{\url{https://github.com/supertone-inc/supertonic}}, with Self-Purifying Flow Matching (SPFM) to enable robust adaptation to in-the-wild speech. SPFM mitigates label noise by comparing conditional and unconditional flow matching losses on each sample, routing suspicious text--speech pairs to unconditional training while still leveraging their acoustic information. The resulting model achieves the lowest Word Error Rate (WER) among all participating teams, while ranking second in perceptual metrics such as UTMOS and DNSMOS. These findings demonstrate that efficient, open-weight architectures like Supertonic can be effectively adapted to diverse real-world speech conditions when combined with explicit noise-handling mechanisms such as SPFM.
- Abstract(参考訳): 本稿では,WildSpoof Challenge TTS Track 用に開発された軽量テキスト音声合成システムについて述べる。
我々のアプローチは、最近リリースされたオープンウェイト TTS モデルである \textit{Supertonic}\footnote{\url{https://github.com/supertone-inc/supertonic}} を、SPFM(Self-Purifying Flow Matching)を用いて微調整することで、Wild 音声への堅牢な適応を可能にする。
SPFMは、各サンプルの条件と非条件のフローマッチング損失を比較してラベルノイズを緩和し、不審なテキストペアを非条件のトレーニングにルーティングし、その音響情報を活用する。
その結果得られたモデルは、すべての参加チームの中でワードエラー率(WER)が最も低く、 UTMOS や DNSMOS などの知覚的指標では第2位である。
これらの結果から,SPFMのような明示的なノイズ処理機構と組み合わせることで,スーパートニックのような効率的なオープンウェイトアーキテクチャを,多様な実環境の音声条件に効果的に適用できることが示唆された。
関連論文リスト
- Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis [57.5830191022097]
Text-to-VecモジュールはテキストからWav2Vec2埋め込みを生成する。
We adopt a two-stage training: Pretraining on Wav2Vec2 embeddeddings and finetuning on TTS outputs。
実験により、TS予測潜伏特性の条件付けはカスケードパイプラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-07T17:07:56Z) - Flamed-TTS: Flow Matching Attention-Free Models for Efficient Generating and Dynamic Pacing Zero-shot Text-to-Speech [2.5964779217812057]
Flamed-TTSは、低計算コスト、低レイテンシ、高音声忠実度と豊富な時間的多様性を強調する新しいゼロショットテキスト音声合成フレームワークである。
本研究では,Flamed-TTSが最先端モデルを超え,可知性,自然性,話者の類似性,音響特性の保存,動的ペースについて検討した。
論文 参考訳(メタデータ) (2025-10-03T09:36:55Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis [35.16243386407448]
Bridge-TTSは、確立された拡散に基づくTS法において、ノイズの多いガウスをクリーンで決定論的に置き換える新しいTSシステムである。
具体的には、テキスト入力から得られた潜伏表現を前もって利用し、それと地上トルス・メル・スペクトログラムの間に完全にトラクタブルなシュロディンガーブリッジを構築する。
論文 参考訳(メタデータ) (2023-12-06T13:31:55Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising
Diffusion GANs [39.388599580262614]
DiffGAN-TTS(DiffGAN-TTS, DDPM-based text-to-speech)モデルを導入し, 高忠実度音声合成を実現する。
実験の結果,DiffGAN-TTSは1段階のみの高合成性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-01-28T07:41:10Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。