論文の概要: SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation
- arxiv url: http://arxiv.org/abs/2405.18503v1
- Date: Tue, 28 May 2024 18:14:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 22:13:00.889372
- Title: SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation
- Title(参考訳): SoundCTM:テキスト・ツー・サウンド・ジェネレーションのためのスコアベース・一貫性モデル
- Authors: Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji,
- Abstract要約: 我々はSoundCTM(Sound Consistency Trajectory Models)を紹介する。
提案モデルは,高品位1段音生成と高品位1段音生成との柔軟な遷移を可能にする。
SoundCTMは、余分なオフザシェルフネットワークを使わずに、有望な1ステップと複数ステップのリアルタイムサウンド生成を実現する。
- 参考スコア(独自算出の注目度): 18.062304680136066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound content is an indispensable element for multimedia works such as video games, music, and films. Recent high-quality diffusion-based sound generation models can serve as valuable tools for the creators. However, despite producing high-quality sounds, these models often suffer from slow inference speeds. This drawback burdens creators, who typically refine their sounds through trial and error to align them with their artistic intentions. To address this issue, we introduce Sound Consistency Trajectory Models (SoundCTM). Our model enables flexible transitioning between high-quality 1-step sound generation and superior sound quality through multi-step generation. This allows creators to initially control sounds with 1-step samples before refining them through multi-step generation. While CTM fundamentally achieves flexible 1-step and multi-step generation, its impressive performance heavily depends on an additional pretrained feature extractor and an adversarial loss, which are expensive to train and not always available in other domains. Thus, we reframe CTM's training framework and introduce a novel feature distance by utilizing the teacher's network for a distillation loss. Additionally, while distilling classifier-free guided trajectories, we train conditional and unconditional student models simultaneously and interpolate between these models during inference. We also propose training-free controllable frameworks for SoundCTM, leveraging its flexible sampling capability. SoundCTM achieves both promising 1-step and multi-step real-time sound generation without using any extra off-the-shelf networks. Furthermore, we demonstrate SoundCTM's capability of controllable sound generation in a training-free manner.
- Abstract(参考訳): サウンドコンテンツは、ビデオゲーム、音楽、映画などのマルチメディア作品にとって欠かせない要素である。
最近の高品質な拡散型音響生成モデルは、クリエイターにとって貴重なツールとなりうる。
しかし、高品質な音を出すにもかかわらず、これらのモデルは推論速度が遅い。
この欠点は、通常、試行錯誤によって音を洗練させ、芸術的な意図と整合させるクリエーターの負担を和らげる。
この問題に対処するため,SoundCTM(Sound Consistency Trajectory Models)を導入する。
提案モデルは,高品位1段音生成と高品位1段音生成との柔軟な遷移を可能にする。
これにより、クリエーターは最初は1ステップのサンプルで音をコントロールし、マルチステップ生成によってそれを精製することができる。
CTMは基本的にフレキシブルな1ステップとマルチステップの生成を実現するが、その顕著な性能は追加の事前訓練された特徴抽出器と、他のドメインでは必ずしも利用できない訓練に高価である敵の損失に大きく依存する。
そこで我々は,CTMのトレーニングフレームワークを再構築し,蒸留損失に教師のネットワークを活用することにより,新たな特徴距離を導入する。
さらに, 分類器を含まない誘導軌道を蒸留しながら, 条件付きおよび無条件の学生モデルを同時に訓練し, 推論中にそれらのモデルを補間する。
また,SoundCTMのフレキシブルサンプリング機能を活用して,トレーニング不要な制御可能なフレームワークを提案する。
SoundCTMは、余分なオフザシェルフネットワークを使わずに、有望な1ステップと複数ステップのリアルタイムサウンド生成を実現する。
さらに,SoundCTMの可制御音発生能力について,無訓練で実演する。
関連論文リスト
- Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
本稿では,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。
本手法は,ユーザのプロンプトからキーコンテンツキューを受信しながら,ビデオから音声の構造情報を推定する。
音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - Frieren: Efficient Video-to-Audio Generation with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [51.42020333199243]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Streamable Neural Audio Synthesis With Non-Causal Convolutions [1.8275108630751844]
非因果的ストリーミングモデルを生成するための新しい手法を提案する。
これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。
並列ブランチで複雑なアーキテクチャに適合させる方法を示す。
論文 参考訳(メタデータ) (2022-04-14T16:00:32Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。