論文の概要: Fast Text-to-Audio Generation with Adversarial Post-Training
- arxiv url: http://arxiv.org/abs/2505.08175v3
- Date: Tue, 20 May 2025 02:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.362609
- Title: Fast Text-to-Audio Generation with Adversarial Post-Training
- Title(参考訳): 対訳 テキスト・ツー・オーディオ・ジェネレーション (特集 テキスト・ツー・オーディオ・ジェネレーション)
- Authors: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons,
- Abstract要約: テキストとオーディオのシステムは推論時に遅いため、多くのクリエイティブなアプリケーションではレイテンシが実用的ではない。
本稿では, 蒸留法をベースとしない拡散流モデルに対する最初の逆数加速アルゴリズムである, ARC(Adversarial Relativistic-Contrastive Re-trainstive Re-training)について述べる。
- 参考スコア(独自算出の注目度): 39.000388217500785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-audio systems, while increasingly performant, are slow at inference time, thus making their latency unpractical for many creative applications. We present Adversarial Relativistic-Contrastive (ARC) post-training, the first adversarial acceleration algorithm for diffusion/flow models not based on distillation. While past adversarial post-training methods have struggled to compare against their expensive distillation counterparts, ARC post-training is a simple procedure that (1) extends a recent relativistic adversarial formulation to diffusion/flow post-training and (2) combines it with a novel contrastive discriminator objective to encourage better prompt adherence. We pair ARC post-training with a number optimizations to Stable Audio Open and build a model capable of generating $\approx$12s of 44.1kHz stereo audio in $\approx$75ms on an H100, and $\approx$7s on a mobile edge-device, the fastest text-to-audio model to our knowledge.
- Abstract(参考訳): テキスト・トゥ・オーディオ・システムは、ますますパフォーマンスが向上するが、推論の時間が遅いため、多くのクリエイティブ・アプリケーションにとってレイテンシーは実用的ではない。
本稿では, 拡散・流量モデルにおいて, 蒸留に基づかない最初の逆数加速アルゴリズムである, ARC後訓練を提案する。
従来の逆行後訓練法は高価な蒸留法と比較に苦慮しているが,ARCポストトレーニングは(1)近年の相対論的逆行式を拡散/流後訓練に拡張する単純な手順であり,(2)新規な対照的な差別的目的と組み合わせることで,より迅速な順応を促進する。
ARCポストトレーニングを安定オーディオオープンに最適化し、H100では44.1kHzのステレオオーディオに$\approx$12s、H100では$\approx$75ms、モバイルエッジデバイスでは$\approx$7sを生成するモデルを構築しました。
関連論文リスト
- Sample-Efficient Diffusion for Text-To-Speech Synthesis [31.372486998377966]
U-Audio Transformer (U-AT)と呼ばれる新しい拡散アーキテクチャに基づいている。
SESDは1k時間未満の音声のトレーニングにもかかわらず、印象的な結果が得られる。
2%未満のトレーニングデータを使用しながら、最先端の自己回帰モデルであるVALL-Eよりも知的な音声を合成する。
論文 参考訳(メタデータ) (2024-09-01T20:34:36Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation [43.61383132919089]
制御可能な音楽生成方法は、人間中心のAIベースの音楽生成に不可欠である。
DITTO-2(Distilled Diffusion Inference-Time T-Optimization)を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:40:11Z) - EAT: Self-Supervised Pre-Training with Efficient Audio Transformer [2.443213094810588]
EAT(Efficient Audio Transformer)は、画像モダリティにおけるData2vec 2.0とオーディオモダリティにおけるAudio-MAEの成功に触発されている。
Utterance-Frame Objective (UFO) は音響イベントのモデリング能力を高めるために設計された。
実験の結果、EATは様々な音声関連タスクにおいて、最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-01-07T14:31:27Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。