論文の概要: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2510.01284v1
- Date: Tue, 30 Sep 2025 21:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.788253
- Title: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- Title(参考訳): Ovi:オーディオビデオ生成のためのツインバックボーンクロスモーダルフュージョン
- Authors: Chetwin Low, Weimin Wang, Calder Katyal,
- Abstract要約: Oviは、2つのモードを単一の生成プロセスとしてモデル化するオーディオビデオ生成の統一パラダイムである。
何十万時間もの生のオーディオをゼロから学習し、現実的な音響効果を生み出すことを学ぶ。
本モデルでは,自然音声による映像ストーリーテリングと,映像レベルの映像クリップを制作し,コンテキストマッチングの精度の高い音響効果を実現する。
- 参考スコア(独自算出の注目度): 5.304004483404346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-video generation has often relied on complex multi-stage architectures or sequential synthesis of sound and visuals. We introduce Ovi, a unified paradigm for audio-video generation that models the two modalities as a single generative process. By using blockwise cross-modal fusion of twin-DiT modules, Ovi achieves natural synchronization and removes the need for separate pipelines or post hoc alignment. To facilitate fine-grained multimodal fusion modeling, we initialize an audio tower with an architecture identical to that of a strong pretrained video model. Trained from scratch on hundreds of thousands of hours of raw audio, the audio tower learns to generate realistic sound effects, as well as speech that conveys rich speaker identity and emotion. Fusion is obtained by jointly training the identical video and audio towers via blockwise exchange of timing (via scaled-RoPE embeddings) and semantics (through bidirectional cross-attention) on a vast video corpus. Our model enables cinematic storytelling with natural speech and accurate, context-matched sound effects, producing movie-grade video clips. All the demos, code and model weights are published at https://aaxwaz.github.io/Ovi
- Abstract(参考訳): オーディオビデオ生成は、複雑なマルチステージアーキテクチャや、音と視覚の逐次合成に依存していることが多い。
我々は2つのモードを1つの生成プロセスとしてモデル化するオーディオビデオ生成のための統一パラダイムであるOviを紹介する。
双対DiTモジュールのブロックワイドなクロスモーダル融合を使用することで、Oviは自然な同期を実現し、分離されたパイプラインやポストホックアライメントの必要性を取り除く。
微細なマルチモーダル・フュージョン・モデリングを容易にするため,我々は,強い事前学習ビデオモデルと同一のアーキテクチャを持つオーディオ・タワーを初期化する。
何十万時間もの生のオーディオのスクラッチから訓練されたこのオーディオタワーは、リッチな話者のアイデンティティと感情を伝達する音声だけでなく、リアルなサウンドエフェクトを生成することを学ぶ。
融合は、巨大なビデオコーパス上で(スケールしたRoPE埋め込みを介して)時間と意味をブロックワイズに交換することで、同一のビデオ塔とオーディオ塔を共同で訓練することで得られる。
本モデルでは,自然音声による映像ストーリーテリングと,映像レベルの映像クリップを制作し,コンテキストマッチングの精度の高い音響効果を実現する。
すべてのデモ、コード、モデルの重み付けはhttps://aaxwaz.github.io/Oviで公開されている。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation [27.20097004987987]
ビデオコンテンツに同期した高品質なオーディオを合成する大規模マルチモーダルビデオ・ツー・オーディオ生成モデルを提案する。
実験の結果,Kling-Foleyはフローマッチングを訓練し,新たな音響視覚SOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-06-24T16:39:39Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation [72.22243595269389]
本稿では,自律型サウンドディレクタによって教師される音声生成のためのマルチエージェントフレームワークを提案する。
Foley ArtistはComposerとVoice Actorのエージェントと共同で働き、共同でオフスクリーンサウンドを自動生成して全体の生産を補完する。
本フレームワークは,映画から抽出した映像クリップに調和した,リッチで関連性の高い音声コンテンツを生成できる。
論文 参考訳(メタデータ) (2025-03-10T11:57:55Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。