論文の概要: Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2510.24103v1
- Date: Tue, 28 Oct 2025 06:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.810894
- Title: Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation
- Title(参考訳): 高忠実度オープンドメイン・ビデオ・オーディオ生成のためのモデル誘導デュアルロールアライメント
- Authors: Kang Zhang, Trung X. Pham, Suyeon Lee, Axi Niu, Arda Senocak, Joon Son Chung,
- Abstract要約: MGAudioは、オープンドメインのビデオオーディオ生成のためのフローベースのフレームワークである。
モデル誘導二重ロールアライメントを中心設計原則として導入している。
MGAudioはVGGSoundで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 43.97033142740935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MGAudio, a novel flow-based framework for open-domain video-to-audio generation, which introduces model-guided dual-role alignment as a central design principle. Unlike prior approaches that rely on classifier-based or classifier-free guidance, MGAudio enables the generative model to guide itself through a dedicated training objective designed for video-conditioned audio generation. The framework integrates three main components: (1) a scalable flow-based Transformer model, (2) a dual-role alignment mechanism where the audio-visual encoder serves both as a conditioning module and as a feature aligner to improve generation quality, and (3) a model-guided objective that enhances cross-modal coherence and audio realism. MGAudio achieves state-of-the-art performance on VGGSound, reducing FAD to 0.40, substantially surpassing the best classifier-free guidance baselines, and consistently outperforms existing methods across FD, IS, and alignment metrics. It also generalizes well to the challenging UnAV-100 benchmark. These results highlight model-guided dual-role alignment as a powerful and scalable paradigm for conditional video-to-audio generation. Code is available at: https://github.com/pantheon5100/mgaudio
- Abstract(参考訳): MGAudioはオープンドメインビデオオーディオ生成のための新しいフローベースフレームワークであり、モデル誘導二重ロールアライメントを中心設計原理として導入する。
MGAudioは、分類器ベースや分類器フリーガイダンスに依存する従来のアプローチとは異なり、ビデオ条件のオーディオ生成用に設計された専用のトレーニング目標を通じて生成モデルをガイドすることができる。
本フレームワークは,(1)スケーラブルなフローベーストランスフォーマーモデル,(2)オーディオ・ビジュアル・エンコーダを条件付けモジュールと特徴調整器の両方として機能し生成品質を向上させるデュアルロールアライメント機構,(3)クロスモーダル・コヒーレンスとオーディオリアリズムを高めるモデル誘導対象の3つの主要コンポーネントを統合する。
MGAudioはVGGSoundの最先端性能を達成し、FADを0.40に減らし、最高の分類子なしガイダンスベースラインを大幅に上回り、FD、IS、アライメントのメトリクスで既存のメソッドを一貫して上回っている。
また、難易度の高いUnAV-100ベンチマークにも適している。
これらの結果は、条件付きビデオ・オーディオ生成のための強力でスケーラブルなパラダイムとして、モデル誘導型デュアルロールアライメントを強調している。
コードは、https://github.com/pantheon5100/mgaudioで入手できる。
関連論文リスト
- AudioMoG: Guiding Audio Generation with Mixture-of-Guidance [33.368423546997796]
本稿ではオーディオ生成のための混合誘導フレームワークであるAudioMoGを紹介する。
デザインの世界では、AudioMoGは独特の指針原理の相補的な利点を利用することができる。
推定速度が同じである場合、AudioMoGアプローチはT2A生成における単一のガイダンスを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-09-28T08:12:43Z) - AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。
我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文 参考訳(メタデータ) (2024-12-19T18:57:21Z) - A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation [15.29891397291197]
オーディオとビデオのベース拡散モデルを考えると,これらを1つのモデルに追加モジュールに統合し,モデルが共同でオーディオとビデオを生成するように訓練する。
音声とビデオのペア間のアライメントを高めるために,本モデルでは2つの新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2024-09-26T05:39:52Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。