論文の概要: Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
- arxiv url: http://arxiv.org/abs/2412.15023v1
- Date: Thu, 19 Dec 2024 16:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 18:44:16.208337
- Title: Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
- Title(参考訳): 安定V2A:時間・セマンティック制御による同期音効果の合成
- Authors: Riccardo Fosco Gramaccioni, Christian Marinoni, Emilian Postolache, Marco Comunità, Luca Cosmo, Joshua D. Reiss, Danilo Comminiello,
- Abstract要約: サウンドデザイナーやフォーリーアーティストは、通常、映画やビデオゲームのようなシーンを手動でアノテートし、ビデオに対する各アクションをソノエートすることによって、ソノエートする。
本稿では、入力ビデオに関連する音響特性のエンベロープを推定するRMS-Mapperと、対象ビデオに意味的かつ時間的に一致した音声を生成する拡散モデルであるStable-Foleyの2段階モデルを提案する。
- 参考スコア(独自算出の注目度): 11.796771978828403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound designers and Foley artists usually sonorize a scene, such as from a movie or video game, by manually annotating and sonorizing each action of interest in the video. In our case, the intent is to leave full creative control to sound designers with a tool that allows them to bypass the more repetitive parts of their work, thus being able to focus on the creative aspects of sound production. We achieve this presenting Stable-V2A, a two-stage model consisting of: an RMS-Mapper that estimates an envelope representative of the audio characteristics associated with the input video; and Stable-Foley, a diffusion model based on Stable Audio Open that generates audio semantically and temporally aligned with the target video. Temporal alignment is guaranteed by the use of the envelope as a ControlNet input, while semantic alignment is achieved through the use of sound representations chosen by the designer as cross-attention conditioning of the diffusion process. We train and test our model on Greatest Hits, a dataset commonly used to evaluate V2A models. In addition, to test our model on a case study of interest, we introduce Walking The Maps, a dataset of videos extracted from video games depicting animated characters walking in different locations. Samples and code available on our demo page at https://ispamm.github.io/Stable-V2A.
- Abstract(参考訳): サウンドデザイナーやフォーリーアーティストは、通常、映画やビデオゲームのようなシーンを手動でアノテートし、ビデオに対する各アクションをソノエートすることによって、ソノエートする。
私たちの場合の意図は、より反復的な作業の部分を回避し、音の制作における創造的な側面に集中できるツールによって、音響デザイナーに完全な創造的なコントロールを委ねることです。
本稿では、入力ビデオに関連する音響特性のエンベロープを推定するRMS-Mapperと、対象ビデオに意味的かつ時間的に整合した音声を生成するStable Audio Openに基づく拡散モデルであるStable-Foleyとからなる2段階モデルであるStable-V2Aを提案する。
テンポラルアライメントは制御ネット入力としてエンベロープを用いることで保証されるが、セマンティックアライメントはデザイナが選択した音響表現を拡散過程のクロスアテンション条件として使用することで達成される。
私たちは、V2Aモデルを評価するために一般的に使用されるデータセットであるGreatest Hitsで、モデルをトレーニングし、テストします。
また、興味のあるケーススタディでモデルを検証するために、異なる場所を歩くアニメキャラクターを描いたビデオゲームから抽出されたビデオのデータセットであるウォーキング・ザ・マップを紹介した。
サンプルとコードはデモページ(https://ispamm.github.io/Stable-V2A)で公開されています。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation [72.22243595269389]
本稿では,自律型サウンドディレクタによって教師される音声生成のためのマルチエージェントフレームワークを提案する。
Foley ArtistはComposerとVoice Actorのエージェントと共同で働き、共同でオフスクリーンサウンドを自動生成して全体の生産を補完する。
本フレームワークは,映画から抽出した映像クリップに調和した,リッチで関連性の高い音声コンテンツを生成できる。
論文 参考訳(メタデータ) (2025-03-10T11:57:55Z) - Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance [20.673800900456467]
本稿では,V2A生成モデルであるSmooth-Foleyを提案する。
フレームアダプタは高解像度のフレームワイドビデオ機能を統合し、テンポラリアダプタは、ビジュアルフレームとテキストラベルの類似性から得られる時間条件を統合する。
その結果,Smooth-Foleyは連続音のシナリオと一般的なシナリオの両方において,既存のモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-24T04:29:46Z) - AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。
我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文 参考訳(メタデータ) (2024-12-19T18:57:21Z) - YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。
数ショット設定で高品質なオーディオ生成をサポートする。
本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2024-12-12T10:55:57Z) - Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis [28.172213291270868]
フォーリー(英: Foley)は、サイレント映画やビデオに日々の音響効果を加えることで、オーディエンス体験を高めるために、映画製作において一般的に用いられる用語である。
Video-to-Audio (V2A)は、音声と視覚の同期に関する固有の課題を提示する。
我々は、描画マスクとラウドネス信号による複数の入力命令をサポートする、Draw an Audioと呼ばれる制御可能なビデオ・オーディオモデルを構築した。
論文 参考訳(メタデータ) (2024-09-10T01:07:20Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。
本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。
FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文 参考訳(メタデータ) (2024-07-01T17:35:56Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - FoleyGAN: Visually Guided Generative Adversarial Network-Based
Synchronous Sound Generation in Silent Videos [0.0]
本稿では,ビデオ入力の時間的視覚情報を用いて,クラス条件付き生成対向ネットワークを案内する新しいタスクを提案する。
提案したFoleyGANモデルは、視覚的に整列したリアルなサウンドトラックを生成するために、視覚イベントのアクションシーケンスを条件付けることができる。
論文 参考訳(メタデータ) (2021-07-20T04:59:26Z) - Visually Guided Sound Source Separation and Localization using
Self-Supervised Motion Representations [16.447597767676655]
入力ビデオシーケンスのソース位置をピンポイントすることを目的としている。
近年の研究では、ソースタイプの事前知識を用いて、オーディオと視覚の分離結果が顕著に示されている。
本研究では,出現と運動の手がかりを専門とする2段階アーキテクチャであるexeation and motion network (amnet)を提案する。
論文 参考訳(メタデータ) (2021-04-17T10:09:15Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。