論文の概要: SkyReels-V3 Technique Report
- arxiv url: http://arxiv.org/abs/2601.17323v1
- Date: Sat, 24 Jan 2026 06:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.59078
- Title: SkyReels-V3 Technique Report
- Title(参考訳): スカイリーズV3技術報告
- Authors: Debang Li, Zhengcong Fei, Tuanhui Li, Yikun Dou, Zheng Chen, Jiangping Yang, Mingyuan Fan, Jingtao Xu, Jiahua Wang, Baoxuan Gu, Mingshan Chang, Yuqiang Xie, Binjie Mao, Youqiang Zhang, Nuo Pang, Hao Zhang, Yuzhe Jin, Zhiheng Xu, Dixuan Lin, Guibin Chen, Yahui Zhou,
- Abstract要約: ビデオの堅牢性は、コンテキスト推論が能力の定義テストである世界モデル構築の基盤となる。
拡散変換器を用いたマルチモーダル・イン・コンテクスト学習フレームワーク上に構築した条件付きビデオ生成モデルSkyReels-V3を提案する。
SkyReels-V3モデルは、イメージ・トゥ・ビデオ合成、ビデオ・ツー・ビデオ拡張、オーディオ誘導ビデオ生成という、3つのコア生成パラダイムを単一のアーキテクチャでサポートする。
- 参考スコア(独自算出の注目度): 24.104144738843587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation serves as a cornerstone for building world models, where multimodal contextual inference stands as the defining test of capability. In this end, we present SkyReels-V3, a conditional video generation model, built upon a unified multimodal in-context learning framework with diffusion Transformers. SkyReels-V3 model supports three core generative paradigms within a single architecture: reference images-to-video synthesis, video-to-video extension and audio-guided video generation. (i) reference images-to-video model is designed to produce high-fidelity videos with strong subject identity preservation, temporal coherence, and narrative consistency. To enhance reference adherence and compositional stability, we design a comprehensive data processing pipeline that leverages cross frame pairing, image editing, and semantic rewriting, effectively mitigating copy paste artifacts. During training, an image video hybrid strategy combined with multi-resolution joint optimization is employed to improve generalization and robustness across diverse scenarios. (ii) video extension model integrates spatio-temporal consistency modeling with large-scale video understanding, enabling both seamless single-shot continuation and intelligent multi-shot switching with professional cinematographic patterns. (iii) Talking avatar model supports minute-level audio-conditioned video generation by training first-and-last frame insertion patterns and reconstructing key-frame inference paradigms. On the basis of ensuring visual quality, synchronization of audio and videos has been optimized. Extensive evaluations demonstrate that SkyReels-V3 achieves state-of-the-art or near state-of-the-art performance on key metrics including visual quality, instruction following, and specific aspect metrics, approaching leading closed-source systems. Github: https://github.com/SkyworkAI/SkyReels-V3.
- Abstract(参考訳): ビデオ生成は、マルチモーダルな文脈推論が能力の定義テストである世界モデル構築の基盤となる。
本稿では,拡散変換器を用いたマルチモーダル・インコンテキスト学習フレームワーク上に構築された条件付きビデオ生成モデルSkyReels-V3を提案する。
SkyReels-V3モデルは、参照画像からビデオへの合成、ビデオ間拡張、オーディオ誘導ビデオ生成という、3つのコア生成パラダイムを単一のアーキテクチャでサポートする。
(i)参照画像から映像への参照モデルは、強い主観的アイデンティティ保存、時間的コヒーレンス、物語的一貫性を備えた高忠実度ビデオを作成するように設計されている。
参照付着性と構成安定性を向上させるため,クロスフレームペアリング,画像編集,セマンティックリライトを活用し,コピーペーストアーティファクトを効果的に緩和する包括的データ処理パイプラインを設計した。
トレーニング中、多解像度共同最適化と組み合わせた画像ビデオハイブリッド戦略を用いて、様々なシナリオにおける一般化と堅牢性を改善する。
(II)ビデオ拡張モデルは、時空間整合性モデリングと大規模ビデオ理解を統合し、シームレスな単発継続とプロの撮影パターンによるインテリジェントなマルチショット切替を可能にする。
三 アバターモデルは、第1及び第1フレーム挿入パターンを訓練し、キーフレーム推論パラダイムを再構築することにより、マイクロレベルオーディオコンディショニングビデオ生成をサポートする。
視覚的品質を保証するため、オーディオとビデオの同期が最適化されている。
大規模な評価では、SkyReels-V3は、視覚的品質、命令フォロー、特定のアスペクトメトリクスなど、最先端のクローズドソースシステムに近づきながら、最先端または最先端のパフォーマンスを達成している。
Github:https://github.com/SkyworkAI/SkyReels-V3.com
関連論文リスト
- Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。
精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。
Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2025-06-10T17:56:11Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。