Fugu-MT 論文翻訳(概要): MMControl: Unified Multi-Modal Control for Joint Audio-Video Generation

論文の概要: MMControl: Unified Multi-Modal Control for Joint Audio-Video Generation

arxiv url: http://arxiv.org/abs/2604.19679v1
Date: Tue, 21 Apr 2026 16:57:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.890056
Title: MMControl: Unified Multi-Modal Control for Joint Audio-Video Generation
Title（参考訳）: MMControl:ジョイントオーディオビデオ生成のための統一マルチモード制御
Authors: Liyang Li, Wen Wang, Canyu Zhao, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen,
Abstract要約: MMControlは、ユーザがジョイントオーディオビデオ生成でマルチモード制御を行うことができる。視覚と音響の両方の制御信号が組み込まれており、参照画像、参照音声、深度マップ、ポーズシーケンスが含まれる。共同オーディオビデオ生成において、キャラクタアイデンティティ、音声の音色、ボディポーズ、シーンレイアウトのきめ細かい構成可能な制御を実現する。
参考スコア（独自算出の注目度）: 42.57591668139397
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in Diffusion Transformers (DiTs) have enabled high-quality joint audio-video generation, producing videos with synchronized audio within a single model. However, existing controllable generation frameworks are typically restricted to video-only control. This restricts comprehensive controllability and often leads to suboptimal cross-modal alignment. To bridge this gap, we present MMControl, which enables users to perform Multi-Modal Control in joint audio-video generation. MMControl introduces a dual-stream conditional injection mechanism. It incorporates both visual and acoustic control signals, including reference images, reference audio, depth maps, and pose sequences, into a joint generation process. These conditions are injected through bypass branches into a joint audio-video Diffusion Transformer, enabling the model to simultaneously generate identity-consistent video and timbre-consistent audio under structural constraints. Furthermore, we introduce modality-specific guidance scaling, which allows users to independently and dynamically adjust the influence strength of each visual and acoustic condition at inference time. Extensive experiments demonstrate that MMControl achieves fine-grained, composable control over character identity, voice timbre, body pose, and scene layout in joint audio-video generation.
Abstract（参考訳）: 拡散変換器(DiT)の最近の進歩により、高品質なジョイントビデオ生成が可能となり、単一のモデル内で同期された音声でビデオを生成することができる。しかし、既存の制御可能な生成フレームワークは通常、ビデオのみの制御に制限される。これにより、包括的な制御性が制限され、しばしば最適部分の相互アライメントにつながる。このギャップを埋めるために,MMControlを提案する。 MMControlはデュアルストリーム条件注入機構を導入している。参照画像、参照音声、深度マップ、ポーズシーケンスを含む視覚的および音響的な制御信号を共同生成プロセスに組み込む。これらの条件は分岐をバイパスして共用オーディオ・ビデオ拡散変換器に注入され、モデルが構造的制約の下でアイデンティティ一貫性のあるビデオと音色一貫性のあるオーディオを同時に生成することができる。さらに,各視覚的および音響的条件の影響強度を推定時に独立に動的に調整できるモーダリティ特異的ガイダンススケーリングを導入する。広汎な実験により,MMControlは,共同音声映像生成における文字識別,音声音色,ボディポーズ,シーンレイアウトのきめ細かな構成可能な制御を実現している。

関連論文リスト

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model [50.329905849190176]
SkyReels V4は、ジョイントビデオオーディオ生成、塗装、編集のための統合マルチモーダルビデオ基盤モデルである。最大1080p解像度、32 FPS、15秒持続時間をサポートし、高忠実度、マルチショット、同期オーディオによるシネマレベルのビデオ生成を可能にする。
論文参考訳（メタデータ） (2026-02-25T11:47:00Z)
CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。 CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文参考訳（メタデータ） (2025-11-26T07:27:11Z)
MultiCOIN: Multi-Modal COntrollable Video INbetweening [46.37499813275259]
マルチモーダル制御を実現するMultiCOINを紹介した。 DiTとマルチモーダルコントロールの互換性を確保するため、すべてのモーションコントロールを共通スパース表現にマッピングする。また,モデルがマルチモーダル制御を円滑に学習できるように,段階的な学習戦略を提案する。
論文参考訳（メタデータ） (2025-10-09T17:59:27Z)
Audio-Sync Video Generation with Multi-Stream Temporal Control [64.00019697525322]
我々は,正確な音声-視覚同期を備えたビデオ生成のための多目的フレームワークであるMTVを紹介する。 MTVは音声を音声、エフェクト、トラックに分離し、唇の動き、イベントタイミング、視覚的気分を制御できる。このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックのデータセットであるDremixを提示する。
論文参考訳（メタデータ） (2025-06-09T17:59:42Z)
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation [34.11899046661299]
textbfACTalkerは、多信号制御と単信号制御の両方をサポートするエンドツーエンドのビデオ拡散フレームワークである。本手法は,多様な信号によって駆動される自然な顔映像を生成し,マンバ層は競合なく複数の駆動モードをシームレスに統合する。
論文参考訳（メタデータ） (2025-04-03T12:44:41Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。