論文の概要: GLA-Grad++: An Improved Griffin-Lim Guided Diffusion Model for Speech Synthesis
- arxiv url: http://arxiv.org/abs/2511.22293v1
- Date: Thu, 27 Nov 2025 10:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.506516
- Title: GLA-Grad++: An Improved Griffin-Lim Guided Diffusion Model for Speech Synthesis
- Title(参考訳): GLA-Grad++: 音声合成のためのグリフィン-リム誘導拡散モデルの改良
- Authors: Teysir Baoueb, Xiaoyu Bie, Mathieu Fontaine, Gaël Richard,
- Abstract要約: 本稿では,WaveGrad vocoder への位相対応拡張を提案する。
GLAを1つの応用で1回だけ補正項を計算し、生成プロセスを高速化する。
- 参考スコア(独自算出の注目度): 26.232361901331927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion models have positioned them as powerful generative frameworks for speech synthesis, demonstrating substantial improvements in audio quality and stability. Nevertheless, their effectiveness in vocoders conditioned on mel spectrograms remains constrained, particularly when the conditioning diverges from the training distribution. The recently proposed GLA-Grad model introduced a phase-aware extension to the WaveGrad vocoder that integrated the Griffin-Lim algorithm (GLA) into the reverse process to reduce inconsistencies between generated signals and conditioning mel spectrogram. In this paper, we further improve GLA-Grad through an innovative choice in how to apply the correction. Particularly, we compute the correction term only once, with a single application of GLA, to accelerate the generation process. Experimental results demonstrate that our method consistently outperforms the baseline models, particularly in out-of-domain scenarios.
- Abstract(参考訳): 近年の拡散モデルの発展により、音声合成のための強力な生成フレームワークとして位置づけられ、音質と安定性が大幅に向上した。
それにもかかわらず、メルスペクトログラムで条件付けされたボコーダの有効性は、特に条件付けがトレーニング分布から分岐する場合に制限される。
最近提案されたGLA-Gradモデルは、Griffin-Limアルゴリズム(GLA)を逆処理に統合し、生成された信号と条件付きメルスペクトルの不整合を低減するWaveGradボコーダに位相対応拡張を導入した。
本稿では,GLA-Gradの補正方法の革新的選択により,さらなる改良を行う。
特に、GLAの単一応用で修正項を1回だけ計算し、生成過程を高速化する。
実験結果から,本手法はベースラインモデル,特にドメイン外シナリオにおいて一貫した性能を発揮した。
関連論文リスト
- Quantum Reinforcement Learning-Guided Diffusion Model for Image Synthesis via Hybrid Quantum-Classical Generative Model Architectures [2.005299372367689]
本稿では,各段階でCFGを動的に調整するQRL(quantum reinforcement learning)コントローラを提案する。
コントローラは、ハイブリッド量子-古典的アクター-批判的アーキテクチャを採用する。
CIFAR-10の実験は、QRLポリシーが知覚品質を改善することを示した。
論文 参考訳(メタデータ) (2025-09-17T16:47:04Z) - Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance [46.06527859746679]
本稿では,Dejin-Free Guidance(CFG)に適応する推論時間法であるReinforcement Learning Guidance(RLG)を紹介する。
RLGは、RLの細調整されたモデルの性能を、人間の好み、構成制御、圧縮、テキストレンダリングなど、様々なRLアルゴリズム、下流タスクで一貫して改善している。
提案手法は,拡散モデルアライメント推論の強化と制御のための,実用的で理論的に健全な解を提供する。
論文 参考訳(メタデータ) (2025-08-28T17:18:31Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Gating is Weighting: Understanding Gated Linear Attention through In-context Learning [48.90556054777393]
GLA(Gated Linear Attention)アーキテクチャには、MambaやRWKVといった競合モデルが含まれている。
重み付きプレコンディショニング・グラディエント・ディフレクション(WPGD)アルゴリズムの一般クラスを多層GLAで実装可能であることを示す。
穏やかな条件下では、一意の WPGD 解に対応する大域的最小値の存在と一意性(スケーリングまで)を確立する。
論文 参考訳(メタデータ) (2025-04-06T00:37:36Z) - WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching [1.6385815610837167]
WaveFMはメル-スペクトログラム条件付き音声合成のためのフローマッチングモデルである。
本モデルは,従来の拡散ボコーダと比較して,品質と効率の両面で優れた性能を実現する。
論文 参考訳(メタデータ) (2025-03-20T20:17:17Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion Model [0.0]
本稿では,Griffin-Limアルゴリズム(GLA)のような位相回復アルゴリズムを正規拡散過程の各ステップで導入するGLA-Gradを提案する。
提案アルゴリズムは,従来未確認の話者に対して音声を生成する場合に,音声生成のための最先端拡散モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-09T12:12:52Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - A weighted-variance variational autoencoder model for speech enhancement [0.0]
パラメータ学習における各スペクトル時間枠の寄与を重み付けした重み付き分散生成モデルを提案する。
提案した生成モデルに基づいて,効率的な学習と音声強調アルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-11-02T09:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。