Fugu-MT 論文翻訳(概要): Training-Free Multimodal Guidance for Video to Audio Generation

論文の概要: Training-Free Multimodal Guidance for Video to Audio Generation

arxiv url: http://arxiv.org/abs/2509.24550v1
Date: Mon, 29 Sep 2025 10:00:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:19.91247
Title: Training-Free Multimodal Guidance for Video to Audio Generation
Title（参考訳）: ビデオからオーディオ生成のための学習不要なマルチモーダルガイダンス
Authors: Eleonora Grassucci, Giuliano Galadini, Giordano Cicchetti, Aurelio Uncini, Fabio Antonacci, Danilo Comminiello,
Abstract要約: Video-to-audio (V2A) の生成は、サイレントビデオから現実的でセマンティックに整合したオーディオを合成することを目的としている。既存のアプローチでは、大規模なペアデータセットでのコストのかかる共同トレーニングが必要か、ペアの類似性に依存している。本稿では,V2A拡散のための新しいトレーニングフリーマルチモーダル誘導機構を提案する。
参考スコア（独自算出の注目度）: 22.64037676707457
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video-to-audio (V2A) generation aims to synthesize realistic and semantically aligned audio from silent videos, with potential applications in video editing, Foley sound design, and assistive multimedia. Although the excellent results, existing approaches either require costly joint training on large-scale paired datasets or rely on pairwise similarities that may fail to capture global multimodal coherence. In this work, we propose a novel training-free multimodal guidance mechanism for V2A diffusion that leverages the volume spanned by the modality embeddings to enforce unified alignment across video, audio, and text. The proposed multimodal diffusion guidance (MDG) provides a lightweight, plug-and-play control signal that can be applied on top of any pretrained audio diffusion model without retraining. Experiments on VGGSound and AudioCaps demonstrate that our MDG consistently improves perceptual quality and multimodal alignment compared to baselines, proving the effectiveness of a joint multimodal guidance for V2A.
Abstract（参考訳）: Video-to-audio (V2A) の生成は、サイレントビデオからリアルでセマンティックに整合したオーディオを合成することを目的としており、ビデオ編集、フォーリーサウンドデザイン、アシストマルチメディアなどに応用される可能性がある。優れた結果にもかかわらず、既存のアプローチでは、大規模なペアデータセットでのコストのかかる共同トレーニングや、グローバルなマルチモーダルコヒーレンスを捉えるのに失敗する可能性のあるペアの類似性に依存する必要がある。本研究では,ビデオ,音声,テキスト間の統一的なアライメントを実現するために,モダリティ埋め込みによって分散された音量を利用する,V2A拡散のためのトレーニング不要なマルチモーダル誘導機構を提案する。提案したマルチモーダル拡散誘導 (MDG) は,任意の事前学習された音声拡散モデルの上に,再学習せずに適用可能な,軽量なプラグアンドプレイ制御信号を提供する。 VGGSoundとAudioCapsの実験では、MDGはベースラインよりも知覚品質とマルチモーダルアライメントを一貫して改善し、V2Aに対する共同マルチモーダルガイダンスの有効性が証明された。

関連論文リスト

HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation [14.921126281071544]
HunyuanVideo-Foleyはエンドツーエンドのテキスト・ビデオ・オーディオ・フレームワークである。高忠実度オーディオを視覚力学や意味文脈と正確に整合させて合成する。音声の忠実度、視覚的セマンティックなアライメント、時間的アライメント、分布マッチングにまたがる新しい最先端パフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-23T07:30:18Z)
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.887164304514101]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。 Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文参考訳（メタデータ） (2025-05-27T08:22:56Z)
UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation [44.21422404659117]
UniFormはマルチタスク拡散変換器であり、音声と視覚の両方を共有潜在空間で生成する。統一された認知ネットワークを使用することで、UniFormは音と視覚の固有の相関をキャプチャする。大規模言語モデルと大規模テキスト・オーディオ・ビデオ複合データセットを活用することで、UniFormは以前のアプローチよりも優れた生成多様性を実現する。
論文参考訳（メタデータ） (2025-02-06T09:18:30Z)
VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文参考訳（メタデータ） (2024-07-08T18:12:49Z)
STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文参考訳（メタデータ） (2023-10-12T10:50:21Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。