論文の概要: SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation
- arxiv url: http://arxiv.org/abs/2405.18503v3
- Date: Mon, 10 Mar 2025 15:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:38:45.660512
- Title: SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation
- Title(参考訳): SoundCTM:フルバンドテキスト・ツー・サウンド生成のためのスコアベースと一貫性モデルの統合
- Authors: Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji,
- Abstract要約: 我々はSoundCTM(Sound Consistency Trajectory Models)を紹介する。
SoundCTMは、高品質な1ドルの音生成と、決定論的サンプリングによる優れた音質のフレキシブルな遷移を可能にする。
生産レベル生成のために,我々はモデルを1Bのトレーニング可能なパラメータにスケールアップし,SoundCTM-DiT-1Bを音響コミュニティにおける最初の大規模蒸留モデルとした。
- 参考スコア(独自算出の注目度): 18.062304680136066
- License:
- Abstract: Sound content creation, essential for multimedia works such as video games and films, often involves extensive trial-and-error, enabling creators to semantically reflect their artistic ideas and inspirations, which evolve throughout the creation process, into the sound. Recent high-quality diffusion-based Text-to-Sound (T2S) generative models provide valuable tools for creators. However, these models often suffer from slow inference speeds, imposing an undesirable burden that hinders the trial-and-error process. While existing T2S distillation models address this limitation through 1-step generation, the sample quality of $1$-step generation remains insufficient for production use. Additionally, while multi-step sampling in those distillation models improves sample quality itself, the semantic content changes due to their lack of deterministic sampling capabilities. To address these issues, we introduce Sound Consistency Trajectory Models (SoundCTM), which allow flexible transitions between high-quality $1$-step sound generation and superior sound quality through multi-step deterministic sampling. This allows creators to efficiently conduct trial-and-error with 1-step generation to semantically align samples with their intention, and subsequently refine sample quality with preserving semantic content through deterministic multi-step sampling. To develop SoundCTM, we reframe the CTM training framework, originally proposed in computer vision, and introduce a novel feature distance using the teacher network for a distillation loss. For production-level generation, we scale up our model to 1B trainable parameters, making SoundCTM-DiT-1B the first large-scale distillation model in the sound community to achieve both promising high-quality 1-step and multi-step full-band (44.1kHz) generation.
- Abstract(参考訳): ビデオゲームや映画などのマルチメディア作品に不可欠なサウンドコンテンツ制作は、しばしば広範囲にわたる試行錯誤を伴い、創造者が創造過程を通して進化する芸術的アイデアやインスピレーションを意味的に反映することができる。
最近の高品質な拡散ベーステキスト・トゥ・サウンド(T2S)生成モデルは、クリエーターに貴重なツールを提供する。
しかし、これらのモデルは推論速度が遅いため、望ましくない負担が試行錯誤を妨げている。
既存のT2S蒸留モデルは1段階生成によるこの制限に対処するが、生産には1ドル分のサンプル品質が不十分である。
さらに, これらの蒸留モデルにおける多段階サンプリングは, 試料の品質を向上するが, 決定論的サンプリング能力の欠如により, 意味的内容が変化する。
これらの課題に対処するため,音質1ドルの音質生成と,多段階決定論的サンプリングによる優れた音質の柔軟な遷移を可能にするSoundCTM(Sound Consistency Trajectory Models)を導入する。
これにより、クリエータは1ステップ生成による試行錯誤を効率よく行え、サンプルを意味的にその意図に合わせることができ、次いで決定論的多段階サンプリングを通じてセマンティックコンテンツを保存することで、サンプル品質を洗練することができる。
SoundCTMを開発するために、当初コンピュータビジョンで提案されていたCTMトレーニングフレームワークを再構成し、蒸留損失を抑えるために教師ネットワークを用いた新しい特徴距離を導入する。
生産レベル生成のために,本モデルは1Bのトレーニング可能なパラメータにスケールアップし,SoundCTM-DiT-1Bは有望な高品質1ステップおよびマルチステップフルバンド(44.1kHz)の生成を実現するため,サウンドコミュニティで最初の大規模蒸留モデルとなった。
関連論文リスト
- Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。
我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。
本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Streamable Neural Audio Synthesis With Non-Causal Convolutions [1.8275108630751844]
非因果的ストリーミングモデルを生成するための新しい手法を提案する。
これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。
並列ブランチで複雑なアーキテクチャに適合させる方法を示す。
論文 参考訳(メタデータ) (2022-04-14T16:00:32Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。