論文の概要: Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback
- arxiv url: http://arxiv.org/abs/2508.03123v1
- Date: Tue, 05 Aug 2025 06:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.809314
- Title: Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback
- Title(参考訳): 人間のフィードバックによる強化学習を用いた微調整テキスト音声拡散モデル
- Authors: Jingyi Chen, Ju Seung Byun, Micha Elsner, Pichao Wang, Andrew Perrault,
- Abstract要約: TTS拡散モデルのためのRLHFフレームワークであるDiffusion Loss-Guided Policy Optimization (DLPO)を提案する。
DLPOは、元のトレーニング損失を報酬関数に統合し、非効率性を低下させながら生成能力を保ちます。
我々は、非自己回帰拡散に基づくTSモデルWaveGrad 2でこれを評価した。
- 参考スコア(独自算出の注目度): 29.553550178043956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models produce high-fidelity speech but are inefficient for real-time use due to long denoising steps and challenges in modeling intonation and rhythm. To improve this, we propose Diffusion Loss-Guided Policy Optimization (DLPO), an RLHF framework for TTS diffusion models. DLPO integrates the original training loss into the reward function, preserving generative capabilities while reducing inefficiencies. Using naturalness scores as feedback, DLPO aligns reward optimization with the diffusion model's structure, improving speech quality. We evaluate DLPO on WaveGrad 2, a non-autoregressive diffusion-based TTS model. Results show significant improvements in objective metrics (UTMOS 3.65, NISQA 4.02) and subjective evaluations, with DLPO audio preferred 67\% of the time. These findings demonstrate DLPO's potential for efficient, high-quality diffusion TTS in real-time, resource-limited settings.
- Abstract(参考訳): 拡散モデルは高忠実度音声を生成するが、長いデノナイジングステップと、イントネーションとリズムをモデル化する際の課題により、リアルタイム使用には非効率である。
そこで本研究では,TS拡散モデルのためのRLHFフレームワークであるDiffusion Loss-Guided Policy Optimization (DLPO)を提案する。
DLPOは、元のトレーニング損失を報酬関数に統合し、非効率性を低下させながら生成能力を保ちます。
自然度スコアをフィードバックとして、DLPOは報酬最適化を拡散モデルの構造と整合させ、音声品質を向上させる。
非自己回帰拡散に基づくTSモデルWaveGrad 2におけるDLPOの評価を行った。
その結果、客観評価(UTMOS 3.65, NISQA 4.02)と主観評価(主観評価)が大幅に改善され、DLPOオーディオは67%の時間を好んだ。
これらの結果から,DLPOがリアルタイム・資源制限条件下で効率よく,高品質なTTSを実現する可能性が示唆された。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - DLPO: Diffusion Model Loss-Guided Reinforcement Learning for Fine-Tuning Text-to-Speech Diffusion Models [17.808826152758233]
Reinforcement Learning with Human Feedback (RLHF) は画像合成のための拡散モデルを強化することができる。
拡散モデル損失誘導RLポリシー最適化(DLPO)を導入し、他のRLHF手法と比較する。
以上の結果から,RLHFは拡散に基づく音声合成モデルを向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-05-23T14:39:35Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。