論文の概要: Read, Watch and Scream! Sound Generation from Text and Video
- arxiv url: http://arxiv.org/abs/2407.05551v1
- Date: Mon, 8 Jul 2024 01:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:19:52.480133
- Title: Read, Watch and Scream! Sound Generation from Text and Video
- Title(参考訳): 読み上げ, 視聴, スクリーム! テキストとビデオから音を生成する
- Authors: Yujin Jeong, Yunji Kim, Sanghyuk Chun, Jiyoung Lee,
- Abstract要約: 本稿では,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。
本手法は,ユーザのプロンプトからキーコンテンツキューを受信しながら,ビデオから音声の構造情報を推定する。
音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
- 参考スコア(独自算出の注目度): 23.990569918960315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal generative models have shown impressive advances with the help of powerful diffusion models. Despite the progress, generating sound solely from text poses challenges in ensuring comprehensive scene depiction and temporal alignment. Meanwhile, video-to-sound generation limits the flexibility to prioritize sound synthesis for specific objects within the scene. To tackle these challenges, we propose a novel video-and-text-to-sound generation method, called ReWaS, where video serves as a conditional control for a text-to-audio generation model. Our method estimates the structural information of audio (namely, energy) from the video while receiving key content cues from a user prompt. We employ a well-performing text-to-sound model to consolidate the video control, which is much more efficient for training multimodal diffusion models with massive triplet-paired (audio-video-text) data. In addition, by separating the generative components of audio, it becomes a more flexible system that allows users to freely adjust the energy, surrounding environment, and primary sound source according to their preferences. Experimental results demonstrate that our method shows superiority in terms of quality, controllability, and training efficiency. Our demo is available at https://naver-ai.github.io/rewas
- Abstract(参考訳): マルチモーダル生成モデルは、強力な拡散モデルの助けを借りて、目覚ましい進歩を見せている。
進歩にもかかわらず、テキストのみから音を生成することは、総合的なシーンの描写と時間的アライメントを確保することの難しさを浮き彫りにする。
一方、ビデオ音声生成は、シーン内の特定のオブジェクトに対して音声合成を優先する柔軟性を制限する。
これらの課題に対処するために,ビデオはテキスト・オーディオ生成モデルの条件制御として機能する,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。
提案手法は,ユーザのプロンプトから重要コンテンツキューを受信しながら,映像からの音声(すなわちエネルギー)の構造情報を推定する。
我々は,映像制御の強化のために,高性能なテキスト・ツー・サウンドモデルを用いて,大規模トリプルペア(オーディオ・ビデオ・テキスト)データを用いたマルチモーダル拡散モデルの訓練を行う。
さらに、音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
実験結果から,本手法は品質,制御性,訓練効率の面で優れていることが示された。
私たちのデモはhttps://naver-ai.github.io/rewasで公開されています。
関連論文リスト
- Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - The Power of Sound (TPoS): Audio Reactive Video Generation with Stable
Diffusion [23.398304611826642]
本稿では,音のパワー・オブ・サウンドモデルを提案する。
ビデオフレームを生成するために、TPoSはセマンティック情報を持つ潜在安定拡散モデルを使用し、シーケンシャルオーディオ埋め込みによってガイドされる。
様々なタスクにおけるTPoSの有効性を実証し、その結果をオーディオ・ビデオ生成分野における最先端技術と比較する。
論文 参考訳(メタデータ) (2023-09-08T12:21:01Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。