Fugu-MT 論文翻訳(概要): SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

論文の概要: SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

arxiv url: http://arxiv.org/abs/2602.21818v1
Date: Wed, 25 Feb 2026 11:47:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.816625
Title: SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model
Title（参考訳）: SkyReels-V4:マルチモーダルビデオオーディオ生成、塗装および編集モデル
Authors: Guibin Chen, Dixuan Lin, Jiangping Yang, Youqiang Zhang, Zhengcong Fei, Debang Li, Sheng Chen, Chaofeng Ao, Nuo Pang, Yiming Wang, Yikun Dou, Zheng Chen, Mingyuan Fan, Tuanhui Li, Mingshan Chang, Hao Zhang, Xiaopeng Sun, Jingtao Xu, Yuqiang Xie, Jiahua Wang, Zhiheng Xu, Weiming Xiong, Yuzhe Jin, Baoxuan Gu, Binjie Mao, Yunjie Yu, Jujie He, Yuhao Feng, Shiwen Tu, Chaojie Wang, Rui Yan, Wei Shen, Jingchen Wu, Peng Zhao, Xuanyue Zhong, Zhuangzhuang Liu, Kaifei Wang, Fuxiang Zhang, Weikai Xu, Wenyan Liu, Binglu Zhang, Yu Shen, Tianhui Xiong, Bin Peng, Liang Zeng, Xuchen Song, Haoxiang Guo, Peiyu Wang, Yahui Zhou,
Abstract要約: SkyReels V4は、ジョイントビデオオーディオ生成、塗装、編集のための統合マルチモーダルビデオ基盤モデルである。最大1080p解像度、32 FPS、15秒持続時間をサポートし、高忠実度、マルチショット、同期オーディオによるシネマレベルのビデオ生成を可能にする。
参考スコア（独自算出の注目度）: 48.899081269998184
License: http://creativecommons.org/licenses/by/4.0/
Abstract: SkyReels V4 is a unified multi modal video foundation model for joint video audio generation, inpainting, and editing. The model adopts a dual stream Multimodal Diffusion Transformer (MMDiT) architecture, where one branch synthesizes video and the other generates temporally aligned audio, while sharing a powerful text encoder based on the Multimodal Large Language Models (MMLM). SkyReels V4 accepts rich multi modal instructions, including text, images, video clips, masks, and audio references. By combining the MMLMs multi modal instruction following capability with in context learning in the video branch MMDiT, the model can inject fine grained visual guidance under complex conditioning, while the audio branch MMDiT simultaneously leverages audio references to guide sound generation. On the video side, we adopt a channel concatenation formulation that unifies a wide range of inpainting style tasks, such as image to video, video extension, and video editing under a single interface, and naturally extends to vision referenced inpainting and editing via multi modal prompts. SkyReels V4 supports up to 1080p resolution, 32 FPS, and 15 second duration, enabling high fidelity, multi shot, cinema level video generation with synchronized audio. To make such high resolution, long-duration generation computationally feasible, we introduce an efficiency strategy: Joint generation of low resolution full sequences and high-resolution keyframes, followed by dedicated super-resolution and frame interpolation models. To our knowledge, SkyReels V4 is the first video foundation model that simultaneously supports multi-modal input, joint video audio generation, and a unified treatment of generation, inpainting, and editing, while maintaining strong efficiency and quality at cinematic resolutions and durations.
Abstract（参考訳）: SkyReels V4は、ジョイントビデオオーディオ生成、塗装、編集のための統合マルチモーダルビデオ基盤モデルである。モデルはデュアルストリームMultimodal Diffusion Transformer (MMDiT) アーキテクチャを採用し、一方のブランチはビデオと他方のブランチを合成し、他方のブランチは、Multimodal Large Language Models (MMLM) に基づいた強力なテキストエンコーダを共有する。 SkyReels V4は、テキスト、画像、ビデオクリップ、マスク、オーディオ参照を含むリッチなマルチモーダル命令を受け入れる。 MMLMのマルチモーダル命令をビデオブランチMMDiTの文脈学習と組み合わせることで、複雑な条件下で細粒度の視覚誘導を注入し、オーディオブランチMMDiTは音声参照を同時に利用して音声生成を誘導する。ビデオ側では,映像から映像への拡張,映像編集といった幅広いインペイントスタイルのタスクを単一インタフェースで統一するチャネル結合形式を採用し,マルチモーダルプロンプトによるインペイントや編集に自然に拡張する。 SkyReels V4は最大1080p解像度、32 FPS、15秒持続時間をサポートし、高忠実度、マルチショット、シネマレベルのビデオ生成と同期オーディオを実現している。このような高分解能な長周期生成を実現するため、高分解能フルシーケンスと高分解能キーフレームの結合生成と、専用超分解能およびフレーム補間モデルを導入する。我々の知る限り、SkyReels V4は、マルチモーダル入力、ジョイントビデオオーディオ生成、および生成、塗装、編集の統一処理を同時にサポートし、撮影解像度と期間において高い効率と品質を維持しながら、最初のビデオ基盤モデルである。

論文の概要: SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

関連論文リスト