論文の概要: Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance
- arxiv url: http://arxiv.org/abs/2412.18157v1
- Date: Tue, 24 Dec 2024 04:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:01.004230
- Title: Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance
- Title(参考訳): Smooth-Foley: セマンティックガイダンスによるビデオからオーディオ生成のための連続音生成
- Authors: Yaoyun Zhang, Xuenan Xu, Mengyue Wu,
- Abstract要約: 本稿では,V2A生成モデルであるSmooth-Foleyを提案する。
フレームアダプタは高解像度のフレームワイドビデオ機能を統合し、テンポラリアダプタは、ビジュアルフレームとテキストラベルの類似性から得られる時間条件を統合する。
その結果,Smooth-Foleyは連続音のシナリオと一般的なシナリオの両方において,既存のモデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 20.673800900456467
- License:
- Abstract: The video-to-audio (V2A) generation task has drawn attention in the field of multimedia due to the practicality in producing Foley sound. Semantic and temporal conditions are fed to the generation model to indicate sound events and temporal occurrence. Recent studies on synthesizing immersive and synchronized audio are faced with challenges on videos with moving visual presence. The temporal condition is not accurate enough while low-resolution semantic condition exacerbates the problem. To tackle these challenges, we propose Smooth-Foley, a V2A generative model taking semantic guidance from the textual label across the generation to enhance both semantic and temporal alignment in audio. Two adapters are trained to leverage pre-trained text-to-audio generation models. A frame adapter integrates high-resolution frame-wise video features while a temporal adapter integrates temporal conditions obtained from similarities of visual frames and textual labels. The incorporation of semantic guidance from textual labels achieves precise audio-video alignment. We conduct extensive quantitative and qualitative experiments. Results show that Smooth-Foley performs better than existing models on both continuous sound scenarios and general scenarios. With semantic guidance, the audio generated by Smooth-Foley exhibits higher quality and better adherence to physical laws.
- Abstract(参考訳): The video-to-audio (V2A) generation task has attention in the field of multimedia because the practicality in production Foley sound。
意味的および時間的条件は生成モデルに入力され、音の発生と時間的発生を示す。
没入型・同期型音声の合成に関する最近の研究は,映像の移動に伴う課題に直面している。
低分解能なセマンティック条件が問題を悪化させる一方、時間条件は十分正確ではない。
これらの課題に対処するため,V2A生成モデルであるSmooth-Foleyを提案する。
2つのアダプタは、事前訓練されたテキスト-オーディオ生成モデルを活用するように訓練されている。
フレームアダプタは高解像度のフレームワイドビデオ機能を統合し、テンポラリアダプタは、ビジュアルフレームとテキストラベルの類似性から得られる時間条件を統合する。
テキストラベルからのセマンティックガイダンスの導入は、正確な音声・映像のアライメントを実現する。
広範に定量的かつ定性的な実験を行う。
その結果,Smooth-Foleyは連続音のシナリオと一般的なシナリオの両方において,既存のモデルよりも優れた性能を示した。
セマンティックガイダンスにより、Smooth-Foley が生成した音声は、より高い品質と物理法則への忠実性を示す。
関連論文リスト
- Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。
本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。
FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文 参考訳(メタデータ) (2024-07-01T17:35:56Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Text-to-Audio Generation Synchronized with Videos [44.848393652233796]
我々は,T2AV-Benchというビデオと連携したテキスト・ツー・オーディオ生成のための画期的なベンチマークを提案する。
また,ビデオアライメントTTA生成モデル,すなわちT2AVを提案する。
ビデオデータから時間的ニュアンスを抽出し、理解するために、時間的マルチヘッドアテンショントランスフォーマーを使用します。
論文 参考訳(メタデータ) (2024-03-08T22:27:38Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。