論文の概要: SpecMaskFoley: Steering Pretrained Spectral Masked Generative Transformer Toward Synchronized Video-to-audio Synthesis via ControlNet
- arxiv url: http://arxiv.org/abs/2505.16195v1
- Date: Thu, 22 May 2025 03:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.025475
- Title: SpecMaskFoley: Steering Pretrained Spectral Masked Generative Transformer Toward Synchronized Video-to-audio Synthesis via ControlNet
- Title(参考訳): SpecMaskFoley: 制御ネットによる同期ビデオ音声合成に向けた事前訓練されたスペクトルマスク生成変換器のステアリング
- Authors: Zhi Zhong, Akira Takahashi, Shuyang Cui, Keisuke Toyama, Shusuke Takahashi, Yuki Mitsufuji,
- Abstract要約: フォリー合成は、ビデオフレームに意味的かつ時間的に整合した高品質なオーディオを合成することを目的としている。
ControlNetはフォリー合成に適用されているが、その使用は手作りのヒト可読時間条件に限られている。
そこで我々はSpecMaskFoleyを提案する。これは事前訓練されたSpecMaskGITモデルを制御ネットによるビデオ同期フォリー合成に活用する手法である。
- 参考スコア(独自算出の注目度): 20.194383096952848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foley synthesis aims to synthesize high-quality audio that is both semantically and temporally aligned with video frames. Given its broad application in creative industries, the task has gained increasing attention in the research community. To avoid the non-trivial task of training audio generative models from scratch, adapting pretrained audio generative models for video-synchronized foley synthesis presents an attractive direction. ControlNet, a method for adding fine-grained controls to pretrained generative models, has been applied to foley synthesis, but its use has been limited to handcrafted human-readable temporal conditions. In contrast, from-scratch models achieved success by leveraging high-dimensional deep features extracted using pretrained video encoders. We have observed a performance gap between ControlNet-based and from-scratch foley models. To narrow this gap, we propose SpecMaskFoley, a method that steers the pretrained SpecMaskGIT model toward video-synchronized foley synthesis via ControlNet. To unlock the potential of a single ControlNet branch, we resolve the discrepancy between the temporal video features and the time-frequency nature of the pretrained SpecMaskGIT via a frequency-aware temporal feature aligner, eliminating the need for complicated conditioning mechanisms widely used in prior arts. Evaluations on a common foley synthesis benchmark demonstrate that SpecMaskFoley could even outperform strong from-scratch baselines, substantially advancing the development of ControlNet-based foley synthesis models. Demo page: https://zzaudio.github.io/SpecMaskFoley_Demo/
- Abstract(参考訳): フォリー合成は、ビデオフレームに意味的かつ時間的に整合した高品質なオーディオを合成することを目的としている。
クリエイティブ産業に広く応用されていることから、この課題は研究コミュニティで注目を集めている。
音声生成モデルをスクラッチから訓練する非自明な作業を回避するために、ビデオ同期フォリー合成のための事前訓練された音声生成モデルを適用することにより、魅力的な方向を示す。
事前訓練された生成モデルにきめ細かい制御を加える制御ネットは、フォリー合成に応用されているが、その使用は手作りのヒト可読時間条件に限られている。
対照的に、オフスクラッチモデルは、事前訓練されたビデオエンコーダを用いて抽出された高次元の深い特徴を活用することで、成功を収めた。
我々は、制御ネットベースとオフスクラッチフォリーモデルのパフォーマンスギャップを観測した。
このギャップを狭めるために、SpecMaskFoleyを提案する。これは、事前訓練されたSpecMaskGITモデルを、ControlNetによるビデオ同期フォリー合成に向けてステアリングする手法である。
単一制御ネット分岐の可能性を解き明かすため,事前学習したSpecMaskGITの時間的映像特徴と時間的特性の相違を周波数対応時間的特徴整合器を用いて解決し,先行技術で広く用いられている複雑な条件付け機構の必要性を解消する。
一般的なフォリー合成ベンチマークによる評価は、SpecMaskFoleyが強いオフスクラッチベースラインよりも優れており、制御ネットベースのフォリー合成モデルの開発が著しく進んでいることを示している。
デモページ:https://zzaudio.github.io/SpecMaskFoley_Demo/
関連論文リスト
- SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input [6.275971782566314]
本研究では,SpatialDreamerと呼ばれるビデオ拡散モデルを用いて,自己監督型ステレオ合成ビデオパラダイムを提案する。
ステレオビデオデータ不足に対処するため,Depth ベースのビデオ生成モジュール DVG を提案する。
また,RefinerNetと,効率的で専用のトレーニングを容易にするための自己教師型合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T15:12:59Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声とビデオの同期によってユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - VideoComposer: Compositional Video Synthesis with Motion Controllability [52.4714732331632]
VideoComposerを使えば、ユーザーはテキストの条件や空間的条件、さらに重要な時間的条件でビデオを柔軟に組み立てることができる。
圧縮ビデオからの運動ベクトルを明示的な制御信号として導入し、時間的ダイナミクスに関するガイダンスを提供する。
さらに、逐次入力の空間的・時間的関係を効果的に組み込むために、統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発した。
論文 参考訳(メタデータ) (2023-06-03T06:29:02Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。