論文の概要: MultiSoundGen: Video-to-Audio Generation for Multi-Event Scenarios via SlowFast Contrastive Audio-Visual Pretraining and Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2509.19999v1
- Date: Wed, 24 Sep 2025 11:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.788053
- Title: MultiSoundGen: Video-to-Audio Generation for Multi-Event Scenarios via SlowFast Contrastive Audio-Visual Pretraining and Direct Preference Optimization
- Title(参考訳): MultiSoundGen: SlowFast Contrastive Audio-Visual Pretraining と Direct Preference Optimization によるマルチイベントシナリオのためのビデオ・ツー・オーディオ生成
- Authors: Jianxuan Yang, Xiaoran Yang, Lipan Zhang, Xinyue Guo, Zhao Wang, Gongping Huang,
- Abstract要約: 本研究では,新しいV2AフレームワークであるMultiSoundGenを提案する。
V2AドメインにDPO(Direct preference Optimization)を導入し、AVP(Audio-visual pretraining)を活用して、複雑なマルチイベントシナリオのパフォーマンスを向上させる。
実験により、MultiSoundGenは、マルチイベントシナリオにおいて、最先端(SOTA)のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 10.717164013707693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video-to-audio (V2A) methods struggle in complex multi-event scenarios (video scenarios involving multiple sound sources, sound events, or transitions) due to two critical limitations. First, existing methods face challenges in precisely aligning intricate semantic information together with rapid dynamic features. Second, foundational training lacks quantitative preference optimization for semantic-temporal alignment and audio quality. As a result, it fails to enhance integrated generation quality in cluttered multi-event scenes. To address these core limitations, this study proposes a novel V2A framework: MultiSoundGen. It introduces direct preference optimization (DPO) into the V2A domain, leveraging audio-visual pretraining (AVP) to enhance performance in complex multi-event scenarios. Our contributions include two key innovations: the first is SlowFast Contrastive AVP (SF-CAVP), a pioneering AVP model with a unified dual-stream architecture. SF-CAVP explicitly aligns core semantic representations and rapid dynamic features of audio-visual data to handle multi-event complexity; second, we integrate the DPO method into V2A task and propose AVP-Ranked Preference Optimization (AVP-RPO). It uses SF-CAVP as a reward model to quantify and prioritize critical semantic-temporal matches while enhancing audio quality. Experiments demonstrate that MultiSoundGen achieves state-of-the-art (SOTA) performance in multi-event scenarios, delivering comprehensive gains across distribution matching, audio quality, semantic alignment, and temporal synchronization. The complete code and dataset will be released soon.
- Abstract(参考訳): 現在のV2A法は、2つの限界があるため、複雑なマルチイベントシナリオ(複数の音源、音響イベント、トランジションを含むビデオシナリオ)で苦労している。
まず、既存の手法は、複雑な意味情報を高速な動的特徴とともに正確に整合させるという課題に直面している。
第二に、基本的なトレーニングには、意味的時間的アライメントとオーディオ品質に対する定量的な選好の最適化が欠けている。
結果として、散在するマルチイベントシーンにおける統合生成品質の向上に失敗する。
これらの制約に対処するため、本研究では、新しいV2AフレームワークであるMultiSoundGenを提案する。
V2AドメインにDPO(Direct preference Optimization)を導入し、AVP(Audio-visual pretraining)を活用して、複雑なマルチイベントシナリオのパフォーマンスを向上させる。
ひとつはSlowFast Contrastive AVP(SF-CAVP)です。
SF-CAVPは,音声・視覚データのコアセマンティック表現と高速な動的特徴を明示的に調整し,DPO法をV2Aタスクに統合し,AVP-Ranked Preference Optimization (AVP-RPO)を提案する。
SF-CAVPを報酬モデルとして使用し、音声品質を高めながら、重要な意味的時間的マッチングを定量化し、優先順位付けする。
実験により、MultiSoundGenは、マルチイベントシナリオにおける最先端(SOTA)のパフォーマンスを達成し、分散マッチング、オーディオ品質、セマンティックアライメント、時間同期の総合的なゲインを提供することが示された。
完全なコードとデータセットはまもなくリリースされる予定だ。
関連論文リスト
- SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling [78.61911985138795]
On-AVEP(On-AVEP: Online Audio-Visual Event Parsing)は、入ってくる映像ストリームを逐次解析することで、音声、視覚、視覚イベントを解析するための新しいパラダイムである。
本稿では,(a)予測的マルチモーダル・フューチャー・モデリングが特徴とする予測的未来・モデリング・フレームワークを提案する。
実験により、PreFMは、パラメータが大幅に少ない大きなマージンで最先端の手法を著しく上回ることが示された。
論文 参考訳(メタデータ) (2025-05-29T06:46:19Z) - YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。
数ショット設定で高品質なオーディオ生成をサポートする。
本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2024-12-12T10:55:57Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion
Models [12.898486592791604]
Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。
我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
論文 参考訳(メタデータ) (2023-06-29T12:39:58Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio
Visual Event Localization [14.103742565510387]
AVE-CLIPは,大規模音声・視覚データに事前学習したAudioCLIPを,マルチウィンドウ時間変換器と統合した新しいフレームワークである。
提案手法は,AVEデータセット上での最先端性能を5.9%の平均精度改善で達成する。
論文 参考訳(メタデータ) (2022-10-11T00:15:45Z) - Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness
of Multi-Stream End-to-End ASR [35.7018440502825]
マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。
ミスマッチシナリオに着目した2段階拡張方式を提案する。
従来の訓練戦略と比較して、単語誤り率を29.7~59.3%削減するなど、大幅な改善が報告されている。
論文 参考訳(メタデータ) (2021-02-05T08:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。