論文の概要: Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound
- arxiv url: http://arxiv.org/abs/2408.11915v1
- Date: Wed, 21 Aug 2024 18:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:06:47.053458
- Title: Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound
- Title(参考訳): Video-Foley:フォリー音の時間的イベント条件による2段階のビデオ音声生成
- Authors: Junwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam,
- Abstract要約: 音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
- 参考スコア(独自算出の注目度): 6.638504164134713
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foley sound synthesis is crucial for multimedia production, enhancing user experience by synchronizing audio and video both temporally and semantically. Recent studies on automating this labor-intensive process through video-to-sound generation face significant challenges. Systems lacking explicit temporal features suffer from poor controllability and alignment, while timestamp-based models require costly and subjective human annotation. We propose Video-Foley, a video-to-sound system using Root Mean Square (RMS) as a temporal event condition with semantic timbre prompts (audio or text). RMS, a frame-level intensity envelope feature closely related to audio semantics, ensures high controllability and synchronization. The annotation-free self-supervised learning framework consists of two stages, Video2RMS and RMS2Sound, incorporating novel ideas including RMS discretization and RMS-ControlNet with a pretrained text-to-audio model. Our extensive evaluation shows that Video-Foley achieves state-of-the-art performance in audio-visual alignment and controllability for sound timing, intensity, timbre, and nuance. Code, model weights, and demonstrations are available on the accompanying website. (https://jnwnlee.github.io/video-foley-demo)
- Abstract(参考訳): 音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
明示的な時間的特徴を欠いたシステムは制御性やアライメントの低下に悩まされ、タイムスタンプベースのモデルは高価で主観的な人間のアノテーションを必要とする。
音声やテキストによる意味音のプロンプトを伴う時間的事象条件として,Root Mean Square (RMS) を用いたビデオ・ツー・サウンドシステムである Video-Foley を提案する。
フレームレベルのインテンシティエンベロープ機能であるRMSは、音声セマンティクスと密接に関連しており、高い制御性と同期性を保証する。
アノテーションなしの自己教師型学習フレームワークは、ビデオ2RMSとRMS2Soundの2つの段階で構成され、RMSの離散化やRMS-ControlNetなどの新しいアイデアを事前訓練されたテキスト・音声モデルに取り入れている。
広範に評価した結果,Voice-Foleyは音のタイミング,強度,音色,ニュアンスに対して,映像のアライメントと制御性の向上を実現している。
コード、モデルウェイト、デモは、付随するウェブサイトで公開されている。
(https://jnwnlee.github.io/video-foley-demo)
関連論文リスト
- Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance [20.673800900456467]
本稿では,V2A生成モデルであるSmooth-Foleyを提案する。
フレームアダプタは高解像度のフレームワイドビデオ機能を統合し、テンポラリアダプタは、ビジュアルフレームとテキストラベルの類似性から得られる時間条件を統合する。
その結果,Smooth-Foleyは連続音のシナリオと一般的なシナリオの両方において,既存のモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-24T04:29:46Z) - Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls [11.796771978828403]
サウンドデザイナーやフォーリーアーティストは、通常、映画やビデオゲームのようなシーンを手動でアノテートし、ビデオに対する各アクションをソノエートすることによって、ソノエートする。
本稿では、入力ビデオに関連する音響特性のエンベロープを推定するRMS-Mapperと、対象ビデオに意味的かつ時間的に一致した音声を生成する拡散モデルであるStable-Foleyの2段階モデルを提案する。
論文 参考訳(メタデータ) (2024-12-19T16:37:19Z) - YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。
数ショット設定で高品質なオーディオ生成をサポートする。
本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2024-12-12T10:55:57Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis [28.172213291270868]
フォーリー(英: Foley)は、サイレント映画やビデオに日々の音響効果を加えることで、オーディエンス体験を高めるために、映画製作において一般的に用いられる用語である。
Video-to-Audio (V2A)は、音声と視覚の同期に関する固有の課題を提示する。
我々は、描画マスクとラウドネス信号による複数の入力命令をサポートする、Draw an Audioと呼ばれる制御可能なビデオ・オーディオモデルを構築した。
論文 参考訳(メタデータ) (2024-09-10T01:07:20Z) - FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。
本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。
FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文 参考訳(メタデータ) (2024-07-01T17:35:56Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。