論文の概要: Selective Classifier-free Guidance for Zero-shot Text-to-speech
- arxiv url: http://arxiv.org/abs/2509.19668v1
- Date: Wed, 24 Sep 2025 01:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.647347
- Title: Selective Classifier-free Guidance for Zero-shot Text-to-speech
- Title(参考訳): ゼロショット音声合成のための選択型分類器フリーガイダンス
- Authors: John Zheng, Farhad Maleki,
- Abstract要約: 音声合成における画像生成のためのCFG戦略の適応性を評価する。
画像生成に有効なCFG戦略は、一般的に音声合成の改善に失敗する。
選択的なCFG戦略の有効性は高いテキスト表現に依存している。
- 参考スコア(独自算出の注目度): 4.297070083645049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In zero-shot text-to-speech, achieving a balance between fidelity to the target speaker and adherence to text content remains a challenge. While classifier-free guidance (CFG) strategies have shown promising results in image generation, their application to speech synthesis are underexplored. Separating the conditions used for CFG enables trade-offs between different desired characteristics in speech synthesis. In this paper, we evaluate the adaptability of CFG strategies originally developed for image generation to speech synthesis and extend separated-condition CFG approaches for this domain. Our results show that CFG strategies effective in image generation generally fail to improve speech synthesis. We also find that we can improve speaker similarity while limiting degradation of text adherence by applying standard CFG during early timesteps and switching to selective CFG only in later timesteps. Surprisingly, we observe that the effectiveness of a selective CFG strategy is highly text-representation dependent, as differences between the two languages of English and Mandarin can lead to different results even with the same model.
- Abstract(参考訳): ゼロショットテキスト音声では、ターゲット話者への忠実さとテキストコンテンツへの忠実さのバランスをとることは依然として課題である。
分類器フリーガイダンス(CFG)戦略は、画像生成において有望な結果を示したが、それらの音声合成への応用は過小評価されている。
CFGに使用する条件を分離することで、音声合成における異なる所望の特性間のトレードオフを可能にする。
本稿では,画像生成から音声合成へのCFG戦略の適用性を評価し,この領域に対する分離条件CFGアプローチを拡張した。
その結果,画像生成に有効なCFG戦略は,一般的に音声合成の改善に失敗することがわかった。
また、初期の段階で標準CFGを適用し、後続の段階でのみ選択CFGに切り替えることで、テキストアテンデンスの劣化を抑えながら、話者の類似性を向上できることがわかった。
意外なことに、選択的なCFG戦略の有効性は、英語とマンダリンの2つの言語の違いが、同じモデルであっても異なる結果をもたらす可能性があるため、非常にテキスト表現に依存している。
関連論文リスト
- Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance [17.29693696084235]
テキストと画像の拡散モデルにおいて,異なる意味単位に対して指導度をカスタマイズする新しい手法を提案する。
我々は,各意味領域のCFG尺度を適応的に調整し,テキスト誘導度を均一なレベルに再スケールする。
実験は、様々なテキスト・画像拡散モデルにおける元のCFG戦略よりもS-CFGの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-04-08T10:45:29Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Modeling structure-building in the brain with CCG parsing and large
language models [9.17816011606258]
Combinatory Categorial Grammars (CCGs) は文法の直接合成モデルである。
我々は、より表現力のあるCCGが、fMRIで収集された人間の神経信号に対する文脈自由文法よりも優れたモデルを提供するかどうかを評価する。
論文 参考訳(メタデータ) (2022-10-28T14:21:29Z) - Improving Text-to-Image Synthesis Using Contrastive Learning [4.850820365312369]
本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。
CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T06:43:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。