論文の概要: RobustSpeechFlow: Learning Robust Text-to-Speech Trajectories via Augmentation-based Contrastive Flow Matching
- arxiv url: http://arxiv.org/abs/2605.22083v1
- Date: Thu, 21 May 2026 07:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.136183
- Title: RobustSpeechFlow: Learning Robust Text-to-Speech Trajectories via Augmentation-based Contrastive Flow Matching
- Title(参考訳): RobustSpeechFlow:Augmentation-based Contrastive Flow Matching によるロバストテキスト音声トラック学習
- Authors: Jinhyeok Yang, Hyeongju Kim, Yechan Yu, Joon Byun, Frederik Bous, Juheon Lee,
- Abstract要約: RobustSpeechFlowは、長さ保存リピートにマッチするコントラストフローを拡張し、遅延拡張をスキップすることでアライメントを改善するトレーニング戦略である。
ワードエラー率(WER)を0.06Bパラメータで1.44から1.38に削減する。
多様な話者および韻律条件に対して、一貫したインテリジェンスの改善を提供する。
- 参考スコア(独自算出の注目度): 10.755921557009307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While flow-matching text-to-speech (TTS) achieves strong zero-shot speaker similarity and naturalness, it remains susceptible to content fidelity issues, particularly skip and repeat errors from imperfect alignment. We propose RobustSpeechFlow, a training strategy that improves alignment robustness by extending contrastive flow matching with length-preserving repeat and skip latent augmentations. Requiring no external aligners or preference data, our method directly penalizes realistic failure modes and readily integrates into existing pipelines. On Seed-TTS-eval, it reduces the word error rate (WER) from 1.44 to 1.38 using only 0.06B parameters. On our ZERO500 benchmark, it delivers consistent intelligibility improvements across diverse speaker and prosody conditions; at NFE=24, it reduces English character error rate (CER) from 0.48\% to 0.35\% and Korean CER from 0.81\% to 0.57\%. Audio samples: https://robustspeechflow.github.io/
- Abstract(参考訳): フローマッチングテキスト音声合成(TTS)は、ゼロショット話者の類似性と自然性が強いが、内容の忠実性の問題、特に不完全なアライメントからのミスをスキップし繰り返すことには影響を受けない。
本稿では,長さ保存リピートによるコントラストフローマッチングを延長し,遅延拡張をスキップすることでアライメントロバスト性を向上させるトレーニング戦略であるRobustSpeechFlowを提案する。
外部コーディネータや選好データを必要としないため,本手法は現実的な障害モードを直接ペナルティ化し,既存のパイプラインに容易に統合する。
Seed-TTS-evalでは、0.06Bパラメータだけで単語エラー率(WER)を1.44から1.38に下げる。
NFE=24では、英語の文字誤り率(CER)を0.48\%から0.35\%に、韓国のCERを0.81\%から0.57\%に下げる。
オーディオサンプル:https://robustspeechflow.github.io/
関連論文リスト
- How Code Representation Shapes False-Positive Dynamics in Cross-Language LLM Vulnerability Detection [8.360057179027322]
言語間の脆弱性検出において、コード表現形式がどのように偽陽性行動を形成するかは、まだ理解されていない。
学習時間と推論時間の両方で、原文と刈り取られた抽象構文木を比較し、学習強度とコード表現形式を体系的に変化させる。
言語間のFPRは、トレーニング時間と推論時間の両方の表現の合同効果を反映している。
論文 参考訳(メタデータ) (2026-04-30T11:01:03Z) - Decoder-only Conformer with Modality-aware Sparse Mixtures of Experts for ASR [9.626217175791572]
本稿では,外部の音声エンコーダや事前訓練された大言語モデル(LLM)を使わずに,音声とテキストを単一のスタックで処理する,自動音声認識(ASR)のためのデコーダのみのコンバータを提案する。
モデルは、モダリティを意識した専門家のスパース混合(MoE: Disjoint expert pools for speech and text with hard routing and top-1 selection, embedded in hybrid-causality Conformer block)を使用する。
5言語に1つの多言語モデルを持つCommon Voice 16.1では、平均WERを12.2%から10.6%に削減する。
論文 参考訳(メタデータ) (2026-02-13T02:53:54Z) - From Flows to Words: Can Zero-/Few-Shot LLMs Detect Network Intrusions? A Grammar-Constrained, Calibrated Evaluation on UNSW-NB15 [0.41998444721319217]
大規模言語モデル(LLM)は自然言語入力を推論できるが、微調整なしでの侵入検出におけるそれらの役割は未だ不明である。
本研究では、各ネットワークフローをコンパクトなテキストレコードに変換し、軽量でドメインにインスパイアされたフラグで拡張することで、プロンプトオンリーなアプローチを評価する。
ゼロショット,命令誘導,スプリットショットを比較して,同一のスプリット下での強い神経ベースライン,精度,精度,リコール,F1,マクロスコアを比較した。
論文 参考訳(メタデータ) (2025-10-18T02:11:50Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - Phonology-Guided Speech-to-Speech Translation for African Languages [2.7624021966289605]
音声合成のための韻律誘導フレームワーク(S2ST)を提案する。
Emphwithin-phylum言語対は30-40%低停止,3$times$以上のオンセット/オフセット相関を示した。
また、人間の判断と強く相関する3層無転写BLEUスイート(M1-M3)もリリースしています。
論文 参考訳(メタデータ) (2024-10-30T09:44:52Z) - Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。
1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文 参考訳(メタデータ) (2024-06-05T04:20:17Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。