Fugu-MT 論文翻訳(概要): SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation

論文の概要: SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation

arxiv url: http://arxiv.org/abs/2405.18503v3
Date: Mon, 10 Mar 2025 15:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 18:30:32.991141
Title: SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation
Title（参考訳）: SoundCTM:フルバンドテキスト・ツー・サウンド生成のためのスコアベースと一貫性モデルの統合
Authors: Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji,
Abstract要約: 我々はSoundCTM(Sound Consistency Trajectory Models)を紹介する。 SoundCTMは、高品質な1ドルの音生成と、決定論的サンプリングによる優れた音質のフレキシブルな遷移を可能にする。生産レベル生成のために,我々はモデルを1Bのトレーニング可能なパラメータにスケールアップし,SoundCTM-DiT-1Bを音響コミュニティにおける最初の大規模蒸留モデルとした。
参考スコア（独自算出の注目度）: 18.062304680136066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sound content creation, essential for multimedia works such as video games and films, often involves extensive trial-and-error, enabling creators to semantically reflect their artistic ideas and inspirations, which evolve throughout the creation process, into the sound. Recent high-quality diffusion-based Text-to-Sound (T2S) generative models provide valuable tools for creators. However, these models often suffer from slow inference speeds, imposing an undesirable burden that hinders the trial-and-error process. While existing T2S distillation models address this limitation through 1-step generation, the sample quality of $1$-step generation remains insufficient for production use. Additionally, while multi-step sampling in those distillation models improves sample quality itself, the semantic content changes due to their lack of deterministic sampling capabilities. To address these issues, we introduce Sound Consistency Trajectory Models (SoundCTM), which allow flexible transitions between high-quality $1$-step sound generation and superior sound quality through multi-step deterministic sampling. This allows creators to efficiently conduct trial-and-error with 1-step generation to semantically align samples with their intention, and subsequently refine sample quality with preserving semantic content through deterministic multi-step sampling. To develop SoundCTM, we reframe the CTM training framework, originally proposed in computer vision, and introduce a novel feature distance using the teacher network for a distillation loss. For production-level generation, we scale up our model to 1B trainable parameters, making SoundCTM-DiT-1B the first large-scale distillation model in the sound community to achieve both promising high-quality 1-step and multi-step full-band (44.1kHz) generation.
Abstract（参考訳）: ビデオゲームや映画などのマルチメディア作品に不可欠なサウンドコンテンツ制作は、しばしば広範囲にわたる試行錯誤を伴い、創造者が創造過程を通して進化する芸術的アイデアやインスピレーションを意味的に反映することができる。最近の高品質な拡散ベーステキスト・トゥ・サウンド(T2S)生成モデルは、クリエーターに貴重なツールを提供する。しかし、これらのモデルは推論速度が遅いため、望ましくない負担が試行錯誤を妨げている。既存のT2S蒸留モデルは1段階生成によるこの制限に対処するが、生産には1ドル分のサンプル品質が不十分である。さらに, これらの蒸留モデルにおける多段階サンプリングは, 試料の品質を向上するが, 決定論的サンプリング能力の欠如により, 意味的内容が変化する。これらの課題に対処するため,音質1ドルの音質生成と,多段階決定論的サンプリングによる優れた音質の柔軟な遷移を可能にするSoundCTM(Sound Consistency Trajectory Models)を導入する。これにより、クリエータは1ステップ生成による試行錯誤を効率よく行え、サンプルを意味的にその意図に合わせることができ、次いで決定論的多段階サンプリングを通じてセマンティックコンテンツを保存することで、サンプル品質を洗練することができる。 SoundCTMを開発するために、当初コンピュータビジョンで提案されていたCTMトレーニングフレームワークを再構成し、蒸留損失を抑えるために教師ネットワークを用いた新しい特徴距離を導入する。生産レベル生成のために,本モデルは1Bのトレーニング可能なパラメータにスケールアップし,SoundCTM-DiT-1Bは有望な高品質1ステップおよびマルチステップフルバンド(44.1kHz)の生成を実現するため,サウンドコミュニティで最初の大規模蒸留モデルとなった。

関連論文リスト

SmoothSinger: A Conditional Diffusion Model for Singing Voice Synthesis with Multi-Resolution Architecture [3.7937714754535503]
SmoothSingerは高品質で自然な歌声を合成するための条件拡散モデルである。低品質の合成オーディオを統一されたフレームワークで直接洗練し、2段階のパイプラインに関連する劣化を緩和する。大規模な中国語歌唱コーパスであるOpencpopデータセットの実験は、SmoothSingerが最先端の結果を達成することを示した。
論文参考訳（メタデータ） (2025-06-26T17:07:45Z)
One Step Diffusion via Shortcut Models [109.72495454280627]
単一ネットワークとトレーニングフェーズを用いて高品質なサンプルを生成する,生成モデルのファミリであるショートカットモデルを導入する。ショートカットモデルは、現在のノイズレベルと所望のステップサイズにネットワークを条件付け、生成プロセスでモデルをスキップすることができる。蒸留と比較して、ショートカットモデルは複雑性を1つのネットワークとトレーニングフェーズに減らし、推論時に様々なステップ予算を許容する。
論文参考訳（メタデータ） (2024-10-16T13:34:40Z)
Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
本稿では,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。本手法は,ユーザのプロンプトからキーコンテンツキューを受信しながら,ビデオから音声の構造情報を推定する。音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
論文参考訳（メタデータ） (2024-07-08T01:59:17Z)
Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。 48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文参考訳（メタデータ） (2024-06-12T16:34:26Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback [111.40967379458752]
本稿では,T2V-Turboについて述べる。T2V-Turboは,様々なモデルから得られるフィードバックを,事前学習したT2Vモデルの一貫性蒸留プロセスに統合する。興味深いことに、我々のT2V-Turboの4段階の世代は、Gen-2とPikaを抜いてVBenchで最高スコアを達成した。
論文参考訳（メタデータ） (2024-05-29T04:26:17Z)
Music Consistency Models [31.415900049111023]
本稿では,音楽クリップのメル-スペクトログラムを効率よく合成するために,一貫性モデルの概念を活用する音楽一貫性モデル(textttMusicCM)を提案する。既存のテキストから音楽への拡散モデルに基づいて、textttMusicCMモデルは、一貫性の蒸留と逆微分器の訓練を取り入れている。実験結果から, 計算効率, 忠実度, 自然性の観点から, モデルの有効性が明らかとなった。
論文参考訳（メタデータ） (2024-04-20T11:52:30Z)
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文参考訳（メタデータ） (2024-04-15T17:31:22Z)
SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文参考訳（メタデータ） (2024-01-30T09:17:57Z)
Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。 Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文参考訳（メタデータ） (2023-12-25T22:24:49Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T18:27:43Z)
BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文参考訳（メタデータ） (2022-12-18T10:41:55Z)
ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。 ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。 ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文参考訳（メタデータ） (2022-07-13T17:45:43Z)
BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文参考訳（メタデータ） (2022-05-30T02:09:26Z)
Streamable Neural Audio Synthesis With Non-Causal Convolutions [1.8275108630751844]
非因果的ストリーミングモデルを生成するための新しい手法を提案する。これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。並列ブランチで複雑なアーキテクチャに適合させる方法を示す。
論文参考訳（メタデータ） (2022-04-14T16:00:32Z)
RAVE: A variational autoencoder for fast and high-quality neural audio synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文参考訳（メタデータ） (2021-11-09T09:07:30Z)
CRASH: Raw Audio Score-based Generative Modeling for Controllable High-resolution Drum Sound Synthesis [0.0]
非条件生音声合成のための新しいスコアベース生成モデルを提案する。提案手法は,よりフレキシブルな生成機能を提供しながら,生音声におけるGANベースの手法とのギャップを埋める。
論文参考訳（メタデータ） (2021-06-14T13:48:03Z)
Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。音は時間的にも内容的にも視覚信号と一致しているべきです。カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文参考訳（メタデータ） (2020-07-14T07:51:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。