論文の概要: MOVA: Towards Scalable and Synchronized Video-Audio Generation
- arxiv url: http://arxiv.org/abs/2602.08794v1
- Date: Mon, 09 Feb 2026 15:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.326175
- Title: MOVA: Towards Scalable and Synchronized Video-Audio Generation
- Title(参考訳): MOVA: スケーラブルで同期化されたビデオオーディオ生成を目指す
- Authors: SII-OpenMOSS Team, :, Donghua Yu, Mingshu Chen, Qi Chen, Qi Luo, Qianyi Wu, Qinyuan Cheng, Ruixiao Li, Tianyi Liang, Wenbo Zhang, Wenming Tu, Xiangyu Peng, Yang Gao, Yanru Huo, Ying Zhu, Yinze Luo, Yiyang Zhang, Yuerong Song, Zhe Xu, Zhiyu Zhang, Chenchen Yang, Cheng Chang, Chushu Zhou, Hanfu Chen, Hongnan Ma, Jiaxi Li, Jingqi Tong, Junxi Liu, Ke Chen, Shimin Li, Songlin Wang, Wei Jiang, Zhaoye Fei, Zhiyuan Ning, Chunguo Li, Chenhui Li, Ziwei He, Zengfeng Huang, Xie Chen, Xipeng Qiu,
- Abstract要約: 高品質で同期した映像コンテンツを生成できるオープンソースモデルMOVA(MOSS Video and Audio)を紹介する。
モデルウェイトとコードをリリースすることによって、研究を進め、クリエーターの活気あるコミュニティを育むことを目指しています。
- 参考スコア(独自算出の注目度): 90.85149005517775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.
- Abstract(参考訳): オーディオは現実世界のビデオには欠かせないが、生成モデルはほとんど見過ごされている。
オーディオ・ビジュアルコンテンツを生成する現在のアプローチは、しばしばカスケードパイプラインに依存し、コストを増大させ、エラーを蓄積し、全体的な品質を低下させる。
Veo 3 や Sora 2 のようなシステムは同時生成の価値を強調しているが、共同マルチモーダルモデリングはアーキテクチャ、データ、トレーニングに固有の課題をもたらす。
さらに、既存のシステムのクローズドソースの性質は、この分野の進歩を制限する。
本研究は, リアルな唇同期音声, 環境に配慮した音響効果, コンテンツに整合した音楽を含む, 高品質で同期した映像コンテンツを生成可能なオープンソースモデルMOVA(MOSS Video and Audio)を紹介する。
MOVAはMixture-of-Experts (MoE)アーキテクチャを採用しており、合計32Bパラメータを持ち、18Bは推論中にアクティブである。
IT2VA(Image-Text to Video-Audio)生成タスクをサポートする。
モデルウェイトとコードをリリースすることによって、研究を進め、クリエーターの活気あるコミュニティを育むことを目指しています。
リリースされたコードベースは、効率的な推論、LoRAの微調整、迅速な拡張を包括的にサポートする。
関連論文リスト
- ALIVE: Animate Your World with Lifelike Audio-Video Generation [50.693986608051716]
ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。
音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。
ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-02-09T14:06:03Z) - LTX-2: Efficient Joint Audio-Visual Foundation Model [3.1804093402153506]
LTX-2は、時間的に同期されたオーディオヴィジュアルコンテンツを生成できるオープンソースモデルである。
より広範な理解のために多言語テキストエンコーダを用いる。
LTX-2は、各シーンのキャラクター、環境、スタイル、感情に従うリッチでコヒーレントなオーディオトラックを生成する。
論文 参考訳(メタデータ) (2026-01-06T18:24:41Z) - VABench: A Comprehensive Benchmark for Audio-Video Generation [22.00633729850902]
VABenchは、同期オーディオビデオ生成の機能を評価するために設計されたベンチマークフレームワークである。
タスクタイプは、text-to-audio-video (T2AV)、 Image-to-audio-video (I2AV)、ステレオオーディオビデオ生成の3種類である。
VABenchは、動物、人間の音、音楽、環境音、同期物理音、複雑なシーン、バーチャルワールドの7つの主要なコンテンツカテゴリをカバーしている。
論文 参考訳(メタデータ) (2025-12-10T03:57:29Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation [44.21422404659117]
UniFormはマルチタスク拡散変換器であり、音声と視覚の両方を共有潜在空間で生成する。
統一された認知ネットワークを使用することで、UniFormは音と視覚の固有の相関をキャプチャする。
大規模言語モデルと大規模テキスト・オーディオ・ビデオ複合データセットを活用することで、UniFormは以前のアプローチよりも優れた生成多様性を実現する。
論文 参考訳(メタデータ) (2025-02-06T09:18:30Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。