論文の概要: SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model
- arxiv url: http://arxiv.org/abs/2602.21818v1
- Date: Wed, 25 Feb 2026 11:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.816625
- Title: SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model
- Title(参考訳): SkyReels-V4:マルチモーダルビデオオーディオ生成、塗装および編集モデル
- Authors: Guibin Chen, Dixuan Lin, Jiangping Yang, Youqiang Zhang, Zhengcong Fei, Debang Li, Sheng Chen, Chaofeng Ao, Nuo Pang, Yiming Wang, Yikun Dou, Zheng Chen, Mingyuan Fan, Tuanhui Li, Mingshan Chang, Hao Zhang, Xiaopeng Sun, Jingtao Xu, Yuqiang Xie, Jiahua Wang, Zhiheng Xu, Weiming Xiong, Yuzhe Jin, Baoxuan Gu, Binjie Mao, Yunjie Yu, Jujie He, Yuhao Feng, Shiwen Tu, Chaojie Wang, Rui Yan, Wei Shen, Jingchen Wu, Peng Zhao, Xuanyue Zhong, Zhuangzhuang Liu, Kaifei Wang, Fuxiang Zhang, Weikai Xu, Wenyan Liu, Binglu Zhang, Yu Shen, Tianhui Xiong, Bin Peng, Liang Zeng, Xuchen Song, Haoxiang Guo, Peiyu Wang, Yahui Zhou,
- Abstract要約: SkyReels V4は、ジョイントビデオオーディオ生成、塗装、編集のための統合マルチモーダルビデオ基盤モデルである。
最大1080p解像度、32 FPS、15秒持続時間をサポートし、高忠実度、マルチショット、同期オーディオによるシネマレベルのビデオ生成を可能にする。
- 参考スコア(独自算出の注目度): 48.899081269998184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SkyReels V4 is a unified multi modal video foundation model for joint video audio generation, inpainting, and editing. The model adopts a dual stream Multimodal Diffusion Transformer (MMDiT) architecture, where one branch synthesizes video and the other generates temporally aligned audio, while sharing a powerful text encoder based on the Multimodal Large Language Models (MMLM). SkyReels V4 accepts rich multi modal instructions, including text, images, video clips, masks, and audio references. By combining the MMLMs multi modal instruction following capability with in context learning in the video branch MMDiT, the model can inject fine grained visual guidance under complex conditioning, while the audio branch MMDiT simultaneously leverages audio references to guide sound generation. On the video side, we adopt a channel concatenation formulation that unifies a wide range of inpainting style tasks, such as image to video, video extension, and video editing under a single interface, and naturally extends to vision referenced inpainting and editing via multi modal prompts. SkyReels V4 supports up to 1080p resolution, 32 FPS, and 15 second duration, enabling high fidelity, multi shot, cinema level video generation with synchronized audio. To make such high resolution, long-duration generation computationally feasible, we introduce an efficiency strategy: Joint generation of low resolution full sequences and high-resolution keyframes, followed by dedicated super-resolution and frame interpolation models. To our knowledge, SkyReels V4 is the first video foundation model that simultaneously supports multi-modal input, joint video audio generation, and a unified treatment of generation, inpainting, and editing, while maintaining strong efficiency and quality at cinematic resolutions and durations.
- Abstract(参考訳): SkyReels V4は、ジョイントビデオオーディオ生成、塗装、編集のための統合マルチモーダルビデオ基盤モデルである。
モデルはデュアルストリームMultimodal Diffusion Transformer (MMDiT) アーキテクチャを採用し、一方のブランチはビデオと他方のブランチを合成し、他方のブランチは、Multimodal Large Language Models (MMLM) に基づいた強力なテキストエンコーダを共有する。
SkyReels V4は、テキスト、画像、ビデオクリップ、マスク、オーディオ参照を含むリッチなマルチモーダル命令を受け入れる。
MMLMのマルチモーダル命令をビデオブランチMMDiTの文脈学習と組み合わせることで、複雑な条件下で細粒度の視覚誘導を注入し、オーディオブランチMMDiTは音声参照を同時に利用して音声生成を誘導する。
ビデオ側では,映像から映像への拡張,映像編集といった幅広いインペイントスタイルのタスクを単一インタフェースで統一するチャネル結合形式を採用し,マルチモーダルプロンプトによるインペイントや編集に自然に拡張する。
SkyReels V4は最大1080p解像度、32 FPS、15秒持続時間をサポートし、高忠実度、マルチショット、シネマレベルのビデオ生成と同期オーディオを実現している。
このような高分解能な長周期生成を実現するため、高分解能フルシーケンスと高分解能キーフレームの結合生成と、専用超分解能およびフレーム補間モデルを導入する。
我々の知る限り、SkyReels V4は、マルチモーダル入力、ジョイントビデオオーディオ生成、および生成、塗装、編集の統一処理を同時にサポートし、撮影解像度と期間において高い効率と品質を維持しながら、最初のビデオ基盤モデルである。
関連論文リスト
- UniVideo: Unified Understanding, Generation, and Editing for Videos [60.90505182401494]
統合モデリングをビデオ領域に拡張する汎用フレームワークUniVideoを提案する。
UniVideoは、単一のマルチモーダル命令パラダイムの下で、多様なビデオ生成と編集タスクを統合する。
We show that UniVideo match or over the state-the-the-art task-specific baselines in text/image-to-video generation, in-context video generation and in-context video editing。
論文 参考訳(メタデータ) (2025-10-09T16:01:30Z) - Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation [27.20097004987987]
ビデオコンテンツに同期した高品質なオーディオを合成する大規模マルチモーダルビデオ・ツー・オーディオ生成モデルを提案する。
実験の結果,Kling-Foleyはフローマッチングを訓練し,新たな音響視覚SOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-06-24T16:39:39Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。