論文の概要: Fast Timing-Conditioned Latent Audio Diffusion
- arxiv url: http://arxiv.org/abs/2402.04825v1
- Date: Wed, 7 Feb 2024 13:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:28:59.928385
- Title: Fast Timing-Conditioned Latent Audio Diffusion
- Title(参考訳): 高速同期型潜時音声拡散
- Authors: Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons
- Abstract要約: 安定オーディオは、A100 GPU上で8秒で95秒までのステレオ信号を44.1kHzでレンダリングすることができる。
これは2つの公開テキスト・トゥ・ミュージック・アンド・オーディオ・ベンチマークで最高の1つであり、最先端のモデルとは違い、構造とステレオ・サウンドで音楽を生成することができる。
- 参考スコア(独自算出の注目度): 9.413937099098423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating long-form 44.1kHz stereo audio from text prompts can be
computationally demanding. Further, most previous works do not tackle that
music and sound effects naturally vary in their duration. Our research focuses
on the efficient generation of long-form, variable-length stereo music and
sounds at 44.1kHz using text prompts with a generative model. Stable Audio is
based on latent diffusion, with its latent defined by a fully-convolutional
variational autoencoder. It is conditioned on text prompts as well as timing
embeddings, allowing for fine control over both the content and length of the
generated music and sounds. Stable Audio is capable of rendering stereo signals
of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute
efficiency and fast inference, it is one of the best in two public
text-to-music and -audio benchmarks and, differently from state-of-the-art
models, can generate music with structure and stereo sounds.
- Abstract(参考訳): テキストプロンプトから44.1khzの長いステレオ音声を生成することは計算的に要求される。
さらに、以前の作品の多くは、音楽や音響効果が持続時間によって自然に変化することに対処していない。
本研究では,テキストプロンプトと生成モデルを用いて,44.1khzの長尺な可変長ステレオ音楽と音の効率的な生成に焦点をあてた。
安定オーディオは潜時拡散に基づいており、潜時拡散は完全畳み込み変分オートエンコーダによって定義される。
テキストプロンプトとタイミング埋め込みに条件付けされており、生成された音楽や音の内容と長さの両方を細かく制御することができる。
安定オーディオは、A100 GPU上で8秒で95秒までのステレオ信号を44.1kHzでレンダリングすることができる。
計算効率と高速な推論にもかかわらず、2つの公開テキスト・音楽・オーディオのベンチマークで最高の1つであり、最先端のモデルとは違い、構造とステレオの音で音楽を生成することができる。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Long-form music generation with latent diffusion [8.799402694043955]
時間長の文脈で生成モデルを訓練することにより,最大4m45秒の長音を生成可能であることを示す。
我々は,音質と即時アライメントの指標に基づいて最先端の世代を入手し,主観的テストにより,コヒーレントな構造を持つ完全長の音楽を生成することを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T06:09:33Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - AudioSR: Versatile Audio Super-resolution at Scale [32.36683443201372]
本稿では,多目的オーディオの高解像度化が可能な拡散型生成モデルであるAudioSRを提案する。
具体的には、AudioSRは2kHzから16kHzの範囲内の任意の入力オーディオ信号を24kHzの高解像度オーディオ信号にアップサンプリングすることができる。
論文 参考訳(メタデータ) (2023-09-13T21:00:09Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - MP3net: coherent, minute-long music generation from raw audio with a
simple convolutional GAN [0.0]
我々は、長距離コヒーレンスで高品質のオーディオサンプルを生成する深い畳み込みGANを紹介します。
人間の耳の聴覚マスキングと心理音響知覚の限界を利用して、真の分布を広げる。
私たちは、単一のクラウドTPUv2で250hのトレーニング後に22kHzのサンプルレートで95sのステレオトラックを作成するためにMP3netを使用します。
論文 参考訳(メタデータ) (2021-01-12T22:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。