論文の概要: Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2605.17488v1
- Date: Sun, 17 May 2026 14:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.117881
- Title: Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation
- Title(参考訳): Omni-Customizer:ジョイントオーディオビデオ生成のためのエンドツーエンドマルチモーダルカスタマイズ
- Authors: Yuheng Chen, Qingdong He, Teng Hu, Yuji Wang, Yabiao Wang, Lizhuang Ma, Jiangning Zhang,
- Abstract要約: 複数のアイデンティティの正確なバインディングとシームレスな融合を目的としたエンドツーエンドフレームワークを提案する。
本アーキテクチャでは,セマンティックアンコール型マルチモーダルロ (SA-MRo) を用いて,視覚的および音声的参照トークンとTS埋め込みを対応する意味記述に固定する。
実験により、Omni-Contextはデュアルモーダルなカスタマイズ生成において最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 93.44732526074876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The landscape of joint audio and video generation has been fundamentally transformed by the advent of powerful foundation models. Despite these strides, achieving cohesive multimodal customization for the simultaneous preservation of visual identities and vocal timbres across multiple interacting subjects remains largely underexplored. To bridge this gap, we present Omni-Customizer, an end-to-end framework targeted at the precise binding and seamless fusion of multimodal identity information. Specifically, we introduce an Omni-Context Fusion (OCF) module that effectively enriches the base textual prompt with dense, multimodal identity cues, along with a Masked TTS Cross-Attention (MTP-CA) mechanism explicitly designed to prevent the severe "speech leakage" problem. Within this architecture, we propose Semantic-Anchored Multimodal RoPE (SA-MRoPE) to anchor visual and audio reference tokens, along with TTS embeddings, to their corresponding semantic descriptions, enabling structured multimodal fusion and robust identity binding. Furthermore, we devise a comprehensive training strategy that incorporates interleaved audio-video scheduling to rapidly adapt the audio branch to multilingual scenarios without degrading foundational priors, and a progressive in-pair to cross-pair curriculum to facilitate the learning of high-level and robust identity features. Extensive experiments demonstrate that Omni-Customizer achieves state-of-the-art performance in dual-modal customized generation, excelling across visual identity similarity, timbre consistency, precise audio-video synchronization, and overall video-audio fidelity.
- Abstract(参考訳): ジョイントオーディオとビデオ生成の展望は、強力な基礎モデルの出現によって根本的に変化してきた。
これらの動きにもかかわらず、視覚的アイデンティティと声帯の同時保存のための密集的なマルチモーダルなカスタマイズを実現することは、主に未解明のままである。
このギャップを埋めるために,マルチモーダルID情報の正確なバインディングとシームレスな融合を目的としたエンドツーエンドフレームワークであるOmni-Customizerを提案する。
具体的には,Omni-Context Fusion (OCF) モジュールを導入し,高密度なマルチモーダル・アイデンティティ・キューでテキストのプロンプトを効果的に強化し,MTP-CA(Masked TTS Cross-Attention) 機構を具体化する。
本アーキテクチャでは,SA-MRoPE(Semantic-Anchored Multimodal RoPE)を用いて,視覚的および音声的参照トークンとTS埋め込みを対応する意味記述に固定し,構造化されたマルチモーダル融合とロバストIDバインディングを実現する。
さらに、インターリーブされた音声-ビデオスケジューリングを組み込んだ総合的なトレーニング戦略を考案し、基礎的な先行性を損なうことなく、音声分岐を多言語シナリオに迅速に適応させるとともに、ハイレベルかつ堅牢なアイデンティティ特徴の学習を容易にするための、段階的な対面カリキュラムを考案する。
Omni-Customizerは、視覚的アイデンティティの類似性、音色の整合性、正確な音声とビデオの同期、そして全体的なビデオとオーディオの忠実さに優れる。
関連論文リスト
- Identity as Presence: Towards Appearance and Voice Personalized Joint Audio-Video Generation [20.141976283428562]
高忠実度パーソナライゼーションを実現するために,アイデンティティ対応のジョイントビデオ生成のための統合フレームワークを提案する。
具体的には、音声と視覚のモダリティにまたがるペアアノテーションを用いて、IDを含む情報を自動抽出するデータキュレーションパイプラインを導入する。
顔の外観と声帯が同一性を持つ制御信号として機能する単一・多目的シナリオに対する柔軟でスケーラブルなID注入機構を提案する。
論文 参考訳(メタデータ) (2026-03-18T16:13:48Z) - MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation [59.23161833385837]
音声対話理解・生成のための新しいマルチモーダルフレームワークMAViDを提案する。
本フレームワークは,ユーザのマルチモーダルクエリを正確に解釈し,鮮明かつコンテキスト的にコヒーレントなロングデュレーション対話を生成できる。
論文 参考訳(メタデータ) (2025-12-02T18:55:53Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。