論文の概要: Kinetic-Optimal Scheduling with Moment Correction for Metric-Induced Discrete Flow Matching in Zero-Shot Text-to-Speech
- arxiv url: http://arxiv.org/abs/2605.09386v1
- Date: Sun, 10 May 2026 07:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.224238
- Title: Kinetic-Optimal Scheduling with Moment Correction for Metric-Induced Discrete Flow Matching in Zero-Shot Text-to-Speech
- Title(参考訳): ゼロショットテキスト音声における機械的離散流マッチングのためのモーメント補正による動的最適スケジューリング
- Authors: Dong Yang, Yiyi Cai, Haoyu Zhang, Yuki Saito, Hiroshi Saruwatari,
- Abstract要約: 我々は,一定のフィッシャー・ラオ速度で経路を横断するMI-DFMの新しいスケジューラを開発した。
また、CTMCジャンプ先分布を保存しながら確率を調整できる有限ステップモーメント補正を導入する。
GibbsTTSは、最も客観的な自然性を達成し、マスク付き離散生成ベースラインよりも主観評価に好まれる。
- 参考スコア(独自算出の注目度): 32.9683708919647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metric-induced discrete flow matching (MI-DFM) exploits token-latent geometry for discrete generation, but its practical use is limited by two issues: heuristic schedulers requiring hyperparameter search, and finite-step path-tracking error from its first-order continuous-time Markov chain (CTMC) solver. We address both issues. First, we derive a kinetic-optimal scheduler for prescribed scalar-parameterized probability paths, and instantiate it for MI-DFM as a training-free numerical schedule that traverses the path at constant Fisher-Rao speed. Second, we introduce a finite-step moment correction that adjusts the jump probability while preserving the CTMC jump destination distribution. We validate the resulting method, GibbsTTS, on codec-based zero-shot text-to-speech (TTS). Under controlled comparisons with a unified architecture and large-scale dataset, GibbsTTS achieves the best objective naturalness and is preferred in subjective evaluations over masked discrete generative baselines. Additionally, in comparison with the evaluated state-of-the-art TTS systems, GibbsTTS shows strong speaker similarity, achieving the highest similarity on three of four test sets and ranking second on the fourth. Project page: https://ydqmkkx.github.io/GibbsTTSProject
- Abstract(参考訳): 距離誘導離散フローマッチング (MI-DFM) はトークンラテント幾何を利用して離散生成を行うが、その実用性は、ハイパーパラメータ探索を必要とするヒューリスティックスケジューラと、その一階連続時間マルコフ連鎖 (CTMC) ソルバからの有限ステップ経路追跡誤差の2つの問題によって制限されている。
どちらの問題にも対処する。
まず,所定のスカラーパラメータ化確率パスに対する運動最適スケジューラを導出し,MI-DFMに対して一定のフィッシャー・ラオ速度で経路を横切る訓練不要な数値スケジュールとしてインスタンス化する。
第2に、CTMCジャンプ先分布を維持しながらジャンプ確率を調整する有限ステップモーメント補正を導入する。
我々は、コーデックベースのゼロショットテキスト音声(TTS)を用いて、GibsTTSという手法を検証した。
統一アーキテクチャと大規模データセットとの制御された比較により、GibbsTTSは最も客観的な自然性を達成し、マスク付き離散生成ベースラインよりも主観評価に好まれる。
さらに、評価された最先端TTSシステムと比較すると、GibbsTTSは4つのテストセットのうち3つで最高の類似性を示し、第4のテストセットで第2位にランクインしている。
プロジェクトページ:https://ydqmkkx.github.io/GibbsTTSProject
関連論文リスト
- Posterior Augmented Flow Matching [64.1559809786948]
後拡張フローマッチング(PAFM)はフローマッチング(FM)の一般化である
PAFMは、異なるモデルスケールで最大3.4FID50KでFMよりも改善されていることを示す。
論文 参考訳(メタデータ) (2026-05-01T17:59:59Z) - Neural Continuous-Time Markov Chain: Discrete Diffusion via Decoupled Jump Timing and Direction [18.20305761007799]
我々は,2つの専用ネットワークヘッドを用いて,エフェキシットレート(ジャンプ時)とエフェジュンプ分布(ジャンプ時)で逆処理をパラメータ化するtextbfNeural CTMCを提案する。
我々は、エビデンスローバウンド(ELBO)が、真と学習された逆過程の経路空間KL分散と$$非依存定数で異なることを示す。
また, トラクタブル条件付きサロゲートは標準正則性仮定の下で, 対応する限界逆プロセス対象の勾配と最小化を保っていることを示す。
論文 参考訳(メタデータ) (2026-04-17T04:40:19Z) - AdaTSQ: Pushing the Pareto Frontier of Diffusion Transformers via Temporal-Sensitivity Quantization [22.45250803905198]
拡散変換器(DiT)は、高忠実度画像とビデオ生成のための最先端のバックボーンとして登場した。
後学習量子化(PTQ)は、大規模言語モデル(LLM)に有効であることが証明された。
本稿では,DiTの時間感度を利用して効率と品質のフロンティアを推し進める新しいPTQフレームワークであるAdaTSQを提案する。
論文 参考訳(メタデータ) (2026-02-10T15:23:18Z) - Scalable, Explainable and Provably Robust Anomaly Detection with One-Step Flow Matching [14.503330877000758]
Time-Conditioned Contraction Matching is a novel method for semi-supervised anomaly detection in tabular data。
これは、確率分布間の速度場を学習する最近の生成モデリングフレームワークであるフローマッチングにインスパイアされている。
ADBenchベンチマークの大規模な実験により、TCCMは検出精度と推論コストのバランスが良好であることが示されている。
論文 参考訳(メタデータ) (2025-10-21T06:26:38Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Comparison of Affine and Rational Quadratic Spline Coupling and Autoregressive Flows through Robust Statistical Tests [0.0]
本稿では,対称および非対称ビジェクタに基づく結合と自己回帰流の詳細な比較を提案する。
本研究は,4~400の次元を拡大する多モーダルな対象分布の集合に焦点をあてる。
以上の結果から,A-RQSアルゴリズムは精度とトレーニング速度の両面で際立っていることが示唆された。
論文 参考訳(メタデータ) (2023-02-23T13:34:01Z) - Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文 参考訳(メタデータ) (2021-06-23T09:17:23Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。