論文の概要: UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
- arxiv url: http://arxiv.org/abs/2509.06155v1
- Date: Sun, 07 Sep 2025 17:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.877726
- Title: UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
- Title(参考訳): UniVerse-1:専門家のスタンディングによるオーディオビデオの統一
- Authors: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu,
- Abstract要約: 協調音声とビデオの同時生成が可能な統合型Veo-3型モデルUniVerse-1を提案する。
トレーニング効率を向上させるために、スクラッチからトレーニングをバイパスし、代わりに専門家の縫合技術(SoE)を用いる。
- 参考スコア(独自算出の注目度): 59.38012380516272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce UniVerse-1, a unified, Veo-3-like model capable of simultaneously generating coordinated audio and video. To enhance training efficiency, we bypass training from scratch and instead employ a stitching of experts (SoE) technique. This approach deeply fuses the corresponding blocks of pre-trained video and music generation experts models, thereby fully leveraging their foundational capabilities. To ensure accurate annotations and temporal alignment for both ambient sounds and speech with video content, we developed an online annotation pipeline that processes the required training data and generates labels during training process. This strategy circumvents the performance degradation often caused by misalignment text-based annotations. Through the synergy of these techniques, our model, after being finetuned on approximately 7,600 hours of audio-video data, produces results with well-coordinated audio-visuals for ambient sounds generation and strong alignment for speech generation. To systematically evaluate our proposed method, we introduce Verse-Bench, a new benchmark dataset. In an effort to advance research in audio-video generation and to close the performance gap with state-of-the-art models such as Veo3, we make our model and code publicly available. We hope this contribution will benefit the broader research community. Project page: https://dorniwang.github.io/UniVerse-1/.
- Abstract(参考訳): 協調音声とビデオの同時生成が可能な統合型Veo-3型モデルUniVerse-1を提案する。
トレーニング効率を向上させるために、スクラッチからトレーニングをバイパスし、代わりに専門家の縫合技術(SoE)を用いる。
このアプローチは、事前訓練されたビデオおよび音楽生成の専門家モデルのブロックを深く融合させ、基礎的能力を完全に活用する。
映像コンテンツを用いた環境音と音声の正確なアノテーションと時間的アライメントを確保するため,必要なトレーニングデータを処理し,学習中にラベルを生成するオンラインアノテーションパイプラインを開発した。
この戦略は、誤ったテキストベースのアノテーションによって引き起こされるパフォーマンス劣化を回避します。
これらの手法の相乗効果により, 約7,600時間の音声映像データを微調整し, 環境音生成のためのコーディネート・オーディオ・ビジュアルと, 音声生成のための強いアライメントが得られた。
提案手法を体系的に評価するために,新しいベンチマークデータセットであるVerse-Benchを導入する。
本研究では,Veo3のような最先端のモデルと性能ギャップを埋めるために,我々のモデルとコードを一般公開する。
この貢献が、幅広い研究コミュニティに利益をもたらすことを期待しています。
プロジェクトページ: https://dorniwang.github.io/UniVerse-1/。
関連論文リスト
- Video-to-Audio Generation with Hidden Alignment [27.11625918406991]
我々は、視覚エンコーダ、補助埋め込み、データ拡張技術に焦点をあてて、ビデオ・オーディオ生成パラダイムに関する洞察を提供する。
提案モデルでは,最先端のビデオ・オーディオ生成機能を示す。
論文 参考訳(メタデータ) (2024-07-10T08:40:39Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Text2Video: Text-driven Talking-head Video Synthesis with Phonetic
Dictionary [10.590649169151055]
テキストから映像を合成するための新しいアプローチを紹介します。
この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。
音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
論文 参考訳(メタデータ) (2021-04-29T19:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。