Fugu-MT 論文翻訳(概要): JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

論文の概要: JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

arxiv url: http://arxiv.org/abs/2602.19163v1
Date: Sun, 22 Feb 2026 12:44:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.513016
Title: JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation
Title（参考訳）: JavisDiT++: 共同オーディオビデオ生成のための統一モデリングと最適化
Authors: Kai Liu, Yanhao Zheng, Kai Wang, Shengqiong Wu, Rongjunchen Zhang, Jiebo Luo, Dimitrios Hatzinakos, Ziwei Liu, Hao Fei, Tat-Seng Chua,
Abstract要約: ジョイントオーディオビデオ生成(JAVG)は、テキスト記述から同期的で意味的に整合した音と視覚を生成する。本稿では,JAVGの統一モデリングと最適化のためのフレームワークであるJavisDiT++を提案する。本モデルでは,約100万の公開トレーニングエントリで最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 112.614973927778
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: AIGC has rapidly expanded from text-to-image generation toward high-quality multimodal synthesis across video and audio. Within this context, joint audio-video generation (JAVG) has emerged as a fundamental task that produces synchronized and semantically aligned sound and vision from textual descriptions. However, compared with advanced commercial models such as Veo3, existing open-source methods still suffer from limitations in generation quality, temporal synchrony, and alignment with human preferences. To bridge the gap, this paper presents JavisDiT++, a concise yet powerful framework for unified modeling and optimization of JAVG. First, we introduce a modality-specific mixture-of-experts (MS-MoE) design that enables cross-modal interaction efficacy while enhancing single-modal generation quality. Then, we propose a temporal-aligned RoPE (TA-RoPE) strategy to achieve explicit, frame-level synchronization between audio and video tokens. Besides, we develop an audio-video direct preference optimization (AV-DPO) method to align model outputs with human preference across quality, consistency, and synchrony dimensions. Built upon Wan2.1-1.3B-T2V, our model achieves state-of-the-art performance merely with around 1M public training entries, significantly outperforming prior approaches in both qualitative and quantitative evaluations. Comprehensive ablation studies have been conducted to validate the effectiveness of our proposed modules. All the code, model, and dataset are released at https://JavisVerse.github.io/JavisDiT2-page.
Abstract（参考訳）: AIGCは、テキストから画像生成から、ビデオとオーディオ間の高品質なマルチモーダル合成へと急速に拡張されている。このような状況下では,共同音声映像生成(JAVG)が,テキスト記述から音と視覚を同期的かつ意味的に整合させる基本的なタスクとして登場した。しかしながら、Veo3のような先進的な商用モデルと比較すると、既存のオープンソース手法は、生成品質、時間同期、人間の好みとの整合性の制限に悩まされている。このギャップを埋めるために、本稿では、JAVGの統一モデリングと最適化のための簡潔かつ強力なフレームワークであるJavisDiT++を提案する。まず, 単一モーダル生成品質を向上しつつ, 相互モーダル相互作用の有効性を実現するための, モーダル比混合(MS-MoE)設計を提案する。そこで本稿では,音声とビデオのトークン間のフレームレベルの明示的同期を実現するための,時間的整合型 RoPE (TA-RoPE) 戦略を提案する。さらに, 品質, 一貫性, 同期次元にまたがって, モデル出力と人間の嗜好を一致させるAV-DPO法を開発した。 Wan2.1-1.3B-T2Vをベースとした本モデルでは,約100万の公開トレーニングエントリで最先端の性能を達成し,定性評価と定量的評価の両面で先行したアプローチを著しく上回っている。提案モジュールの有効性を検証するため,包括的アブレーション実験を行った。すべてのコード、モデル、データセットはhttps://JavisVerse.github.io/JavisDiT2-pageで公開される。

関連論文リスト

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation [9.86219488808079]
我々は,高忠実度音声とリップ同期ビデオを生成するための統合されたエンドツーエンド拡散フレームワークUniTalkingを紹介する。事前訓練されたビデオ生成モデルから強力な事前情報を活用することにより、このフレームワークは最先端の視覚的忠実度を確保しつつ、効率的なトレーニングを可能にする。
論文参考訳（メタデータ） (2026-03-02T03:46:53Z)
ALIVE: Animate Your World with Lifelike Audio-Video Generation [50.693986608051716]
ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。 ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
論文参考訳（メタデータ） (2026-02-09T14:06:03Z)
LTX-2: Efficient Joint Audio-Visual Foundation Model [3.1804093402153506]
LTX-2は、時間的に同期されたオーディオヴィジュアルコンテンツを生成できるオープンソースモデルである。より広範な理解のために多言語テキストエンコーダを用いる。 LTX-2は、各シーンのキャラクター、環境、スタイル、感情に従うリッチでコヒーレントなオーディオトラックを生成する。
論文参考訳（メタデータ） (2026-01-06T18:24:41Z)
UniVerse-1: Unified Audio-Video Generation via Stitching of Experts [59.38012380516272]
協調音声とビデオの同時生成が可能な統合型Veo-3型モデルUniVerse-1を提案する。トレーニング効率を向上させるために、スクラッチからトレーニングをバイパスし、代わりに専門家の縫合技術(SoE)を用いる。
論文参考訳（メタデータ） (2025-09-07T17:55:03Z)
OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文参考訳（メタデータ） (2025-04-03T09:48:13Z)
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [94.82127738291749]
JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
論文参考訳（メタデータ） (2025-03-30T09:40:42Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文参考訳（メタデータ） (2023-12-08T23:55:19Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。