論文の概要: TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
- arxiv url: http://arxiv.org/abs/2412.21037v1
- Date: Mon, 30 Dec 2024 16:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:03.053575
- Title: TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
- Title(参考訳): TangoFlux:フローマッチングとクラップ付き優先度最適化を備えた超高速かつ忠実なオーディオ生成テキスト
- Authors: Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria,
- Abstract要約: 我々はTangoFluxを紹介した。TangoFluxは、515Mパラメータを持つ効率的なText-to-Audio(TTA)生成モデルで、1つのA40 GPUで最大30秒44.1kHzのオーディオをわずか3.7秒で生成できる。
TTAモデルを調整する上で重要な課題は、Large Language Models (LLMs) で利用できる検証可能な報酬やゴールドスタンダードの回答のような構造化されたメカニズムを欠いているため、選好ペアを作成するのが難しいことである。
- 参考スコア(独自算出の注目度): 45.73168184387587
- License:
- Abstract: We introduce TangoFlux, an efficient Text-to-Audio (TTA) generative model with 515M parameters, capable of generating up to 30 seconds of 44.1kHz audio in just 3.7 seconds on a single A40 GPU. A key challenge in aligning TTA models lies in the difficulty of creating preference pairs, as TTA lacks structured mechanisms like verifiable rewards or gold-standard answers available for Large Language Models (LLMs). To address this, we propose CLAP-Ranked Preference Optimization (CRPO), a novel framework that iteratively generates and optimizes preference data to enhance TTA alignment. We demonstrate that the audio preference dataset generated using CRPO outperforms existing alternatives. With this framework, TangoFlux achieves state-of-the-art performance across both objective and subjective benchmarks. We open source all code and models to support further research in TTA generation.
- Abstract(参考訳): 我々はTangoFluxを紹介した。TangoFluxは、515Mパラメータを持つ効率的なText-to-Audio(TTA)生成モデルで、1つのA40 GPUで最大30秒44.1kHzのオーディオをわずか3.7秒で生成できる。
TTAモデルを調整する上で重要な課題は、Large Language Models (LLMs) で利用できる検証可能な報酬やゴールドスタンダードの回答のような構造化されたメカニズムを欠いているため、選好ペアを作成するのが難しいことである。
これを解決するために,CLAP-Ranked Preference Optimization (CRPO) を提案する。
CRPOを用いて生成された音声嗜好データセットが既存の選択肢よりも優れていることを示す。
このフレームワークでは、TangoFluxは客観的ベンチマークと主観ベンチマークの両方で最先端のパフォーマンスを実現している。
私たちは、TTA生成のさらなる研究を支援するために、すべてのコードとモデルをオープンソースにしています。
関連論文リスト
- Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Proofread: Fixes All Errors with One Tap [14.785502657069902]
本稿では,サーバサイドのLarge Language Models (LLM) を利用した新しいGboard機能であるProofreadを紹介する。
本稿では,データ生成からメトリクス設計,モデルチューニング,デプロイメントに至るまで,完全なシステムについて述べる。
論文 参考訳(メタデータ) (2024-06-06T21:38:08Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Matcha-TTS: A fast TTS architecture with conditional flow matching [13.973500393046235]
高速TTS音響モデリングのための新しいエンコーダデコーダアーキテクチャであるMatcha-TTSを紹介する。
最適輸送条件フローマッチング(OT-CFM)を用いて訓練する。
これにより、スコアマッチングを用いてトレーニングされたモデルよりも少ない合成ステップで出力品質の高いODEベースのデコーダが得られる。
論文 参考訳(メタデータ) (2023-09-06T17:59:57Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。