論文の概要: Training-Free Multimodal Guidance for Video to Audio Generation
- arxiv url: http://arxiv.org/abs/2509.24550v1
- Date: Mon, 29 Sep 2025 10:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.91247
- Title: Training-Free Multimodal Guidance for Video to Audio Generation
- Title(参考訳): ビデオからオーディオ生成のための学習不要なマルチモーダルガイダンス
- Authors: Eleonora Grassucci, Giuliano Galadini, Giordano Cicchetti, Aurelio Uncini, Fabio Antonacci, Danilo Comminiello,
- Abstract要約: Video-to-audio (V2A) の生成は、サイレントビデオから現実的でセマンティックに整合したオーディオを合成することを目的としている。
既存のアプローチでは、大規模なペアデータセットでのコストのかかる共同トレーニングが必要か、ペアの類似性に依存している。
本稿では,V2A拡散のための新しいトレーニングフリーマルチモーダル誘導機構を提案する。
- 参考スコア(独自算出の注目度): 22.64037676707457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-to-audio (V2A) generation aims to synthesize realistic and semantically aligned audio from silent videos, with potential applications in video editing, Foley sound design, and assistive multimedia. Although the excellent results, existing approaches either require costly joint training on large-scale paired datasets or rely on pairwise similarities that may fail to capture global multimodal coherence. In this work, we propose a novel training-free multimodal guidance mechanism for V2A diffusion that leverages the volume spanned by the modality embeddings to enforce unified alignment across video, audio, and text. The proposed multimodal diffusion guidance (MDG) provides a lightweight, plug-and-play control signal that can be applied on top of any pretrained audio diffusion model without retraining. Experiments on VGGSound and AudioCaps demonstrate that our MDG consistently improves perceptual quality and multimodal alignment compared to baselines, proving the effectiveness of a joint multimodal guidance for V2A.
- Abstract(参考訳): Video-to-audio (V2A) の生成は、サイレントビデオからリアルでセマンティックに整合したオーディオを合成することを目的としており、ビデオ編集、フォーリーサウンドデザイン、アシストマルチメディアなどに応用される可能性がある。
優れた結果にもかかわらず、既存のアプローチでは、大規模なペアデータセットでのコストのかかる共同トレーニングや、グローバルなマルチモーダルコヒーレンスを捉えるのに失敗する可能性のあるペアの類似性に依存する必要がある。
本研究では,ビデオ,音声,テキスト間の統一的なアライメントを実現するために,モダリティ埋め込みによって分散された音量を利用する,V2A拡散のためのトレーニング不要なマルチモーダル誘導機構を提案する。
提案したマルチモーダル拡散誘導 (MDG) は,任意の事前学習された音声拡散モデルの上に,再学習せずに適用可能な,軽量なプラグアンドプレイ制御信号を提供する。
VGGSoundとAudioCapsの実験では、MDGはベースラインよりも知覚品質とマルチモーダルアライメントを一貫して改善し、V2Aに対する共同マルチモーダルガイダンスの有効性が証明された。
関連論文リスト
- LTX-2: Efficient Joint Audio-Visual Foundation Model [3.1804093402153506]
LTX-2は、時間的に同期されたオーディオヴィジュアルコンテンツを生成できるオープンソースモデルである。
より広範な理解のために多言語テキストエンコーダを用いる。
LTX-2は、各シーンのキャラクター、環境、スタイル、感情に従うリッチでコヒーレントなオーディオトラックを生成する。
論文 参考訳(メタデータ) (2026-01-06T18:24:41Z) - Omni2Sound: Towards Unified Video-Text-to-Audio Generation [56.11583645408007]
Video-to-audio (V2A), text-to-audio (T2A), joint video-text-to-audio (VT2A) を統合した統一モデルのトレーニングは,アプリケーションの柔軟性を向上する。
SoundAtlasは大規模なデータセット(470万ペア)で、既存のベンチマークや品質の専門家よりもはるかに優れています。
フレキシブルな入力モダリティをサポートする統一VT2A拡散モデルであるOmni2Soundを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:49:41Z) - HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation [14.921126281071544]
HunyuanVideo-Foleyはエンドツーエンドのテキスト・ビデオ・オーディオ・フレームワークである。
高忠実度オーディオを視覚力学や意味文脈と正確に整合させて合成する。
音声の忠実度、視覚的セマンティックなアライメント、時間的アライメント、分布マッチングにまたがる新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-23T07:30:18Z) - Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance [33.1393328136321]
生成プロセスの制御性を向上し,よりリアルな音声合成を実現するために,ステップバイステップのV2A生成手法を提案する。
従来のフォーリーにインスパイアされた我々の手法は、ビデオによって誘発される全ての音声イベントを、欠落した音声イベントの漸進的な生成を通じてキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2025-06-26T04:20:08Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.887164304514101]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation [44.21422404659117]
UniFormはマルチタスク拡散変換器であり、音声と視覚の両方を共有潜在空間で生成する。
統一された認知ネットワークを使用することで、UniFormは音と視覚の固有の相関をキャプチャする。
大規模言語モデルと大規模テキスト・オーディオ・ビデオ複合データセットを活用することで、UniFormは以前のアプローチよりも優れた生成多様性を実現する。
論文 参考訳(メタデータ) (2025-02-06T09:18:30Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。