論文の概要: OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model
- arxiv url: http://arxiv.org/abs/2602.12304v1
- Date: Thu, 12 Feb 2026 03:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.69961
- Title: OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model
- Title(参考訳): OmniCustom Sync Audio-Video Customization Via Joint Audio-Video Generation Model
- Authors: Maomao Li, Zhen Li, Kaipeng Zhang, Guosheng Yin, Zhifeng Li, Dong Xu,
- Abstract要約: ビデオのアイデンティティと音声の音色の両方を同期的にカスタマイズすることを目的とした、同期オーディオ・ビデオのカスタマイズを提案する。
この新しいタスクでは、参照音声の音色を模倣しながら、参照画像の同一性を維持するビデオを生成する必要がある。
この目的のために、我々は強力なDiTベースのオーディオビデオカスタマイズフレームワークであるOmniCustomを提案する。
- 参考スコア(独自算出の注目度): 37.45649985771698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing mainstream video customization methods focus on generating identity-consistent videos based on given reference images and textual prompts. Benefiting from the rapid advancement of joint audio-video generation, this paper proposes a more compelling new task: sync audio-video customization, which aims to synchronously customize both video identity and audio timbre. Specifically, given a reference image $I^{r}$ and a reference audio $A^{r}$, this novel task requires generating videos that maintain the identity of the reference image while imitating the timbre of the reference audio, with spoken content freely specifiable through user-provided textual prompts. To this end, we propose OmniCustom, a powerful DiT-based audio-video customization framework that can synthesize a video following reference image identity, audio timbre, and text prompts all at once in a zero-shot manner. Our framework is built on three key contributions. First, identity and audio timbre control are achieved through separate reference identity and audio LoRA modules that operate through self-attention layers within the base audio-video generation model. Second, we introduce a contrastive learning objective alongside the standard flow matching objective. It uses predicted flows conditioned on reference inputs as positive examples and those without reference conditions as negative examples, thereby enhancing the model ability to preserve identity and timbre. Third, we train OmniCustom on our constructed large-scale, high-quality audio-visual human dataset. Extensive experiments demonstrate that OmniCustom outperforms existing methods in generating audio-video content with consistent identity and timbre fidelity.
- Abstract(参考訳): 既存の主流ビデオのカスタマイズ方法は、与えられた参照画像とテキストプロンプトに基づいて、アイデンティティ一貫性のあるビデオを生成することに焦点を当てている。
共同音声・ビデオ生成の急速な進歩に特化して、ビデオアイデンティティと音声の音色を同期的にカスタマイズすることを目的とした、音声・ビデオのカスタマイズの同期という、より魅力的な新しいタスクを提案する。
具体的には、参照画像$I^{r}$と参照オーディオ$A^{r}$が与えられた場合、この新しいタスクは、ユーザが提供するテキストプロンプトを通じて、参照音声の音色を模倣しながら、参照画像のアイデンティティを保持するビデオを生成する必要がある。
この目的のために我々は,参照画像の同一性,音声の音色,テキストなどに基づく映像をゼロショットで一斉にプロンプトする,強力なDiTベースのオーディオビデオカスタマイズフレームワークであるOmniCustomを提案する。
私たちのフレームワークは3つの重要なコントリビューションに基づいて構築されています。
第一に、アイデンティティとオーディオの音色制御は、ベースオーディオ・ビデオ生成モデル内の自己注意層を介して動作する別個の参照IDとオーディオLoRAモジュールによって達成される。
第2に、標準的なフローマッチング目的と並行して、対照的な学習目標を導入する。
参照入力に条件付けされた予測フローを正の例とし、参照条件のないフローを負の例とし、アイデンティティと音色を維持するモデル能力を向上する。
第3に、構築した大規模で高品質なオーディオ視覚的人間のデータセットでOmniCustomをトレーニングします。
大規模な実験により、OmniCustomは、一貫したアイデンティティと音色の忠実さでオーディオビデオコンテンツを生成する既存の方法よりも優れていることが示された。
関連論文リスト
- ALIVE: Animate Your World with Lifelike Audio-Video Generation [50.693986608051716]
ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。
音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。
ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-02-09T14:06:03Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation [10.037480577373161]
HunyuanCustomは、画像、オーディオ、ビデオ、テキストの状態をサポートしながら、主題の一貫性を強調する、カスタマイズされたビデオ生成フレームワークである。
本研究は,制御可能な映像生成におけるマルチモーダル・コンディショニングとアイデンティティ保存戦略の有効性を強調した。
論文 参考訳(メタデータ) (2025-05-07T15:33:18Z) - Identity-Preserving Video Dubbing Using Motion Warping [26.10803670509977]
ビデオダビングは、レファレンスビデオと駆動オーディオ信号からリアルでリップシンクされたビデオを合成することを目的としている。
本稿では,ビデオダビングのためのIPTalkerを提案する。
IPTalkerは、リアリズム、リップ同期、アイデンティティ保持の観点から、既存のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-08T16:06:21Z) - Synthesizing Audio from Silent Video using Sequence to Sequence Modeling [0.0]
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,ビデオから音声を生成する新しい手法を提案する。
本手法では3次元ベクトル量子変分オートエンコーダ(VQ-VAE)を用いて映像の空間的・時間的構造を捉える。
本モデルは,CCTV映像解析,サイレント映画復元,映像生成モデルなどの応用性の向上を目的としている。
論文 参考訳(メタデータ) (2024-04-25T22:19:42Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。