論文の概要: Open-Sora Plan: Open-Source Large Video Generation Model
- arxiv url: http://arxiv.org/abs/2412.00131v1
- Date: Thu, 28 Nov 2024 14:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:09.847520
- Title: Open-Sora Plan: Open-Source Large Video Generation Model
- Title(参考訳): Open-Sora Plan: オープンソースの大規模ビデオ生成モデル
- Authors: Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan,
- Abstract要約: Open-Sora Planは,さまざまなユーザ入力に基づいて,望まれる高解像度ビデオを生成するための,大規模な生成モデルの提供を目的としたオープンソースプロジェクトである。
本プロジェクトは,Wavelet-Flow Variational Autoencoder,Joint Image-Video Skiparse Denoiser,各種コンディションコントローラなど,ビデオ生成プロセス全体のコンポーネントで構成されている。
我々のOpen-Sora Planは、効率的な思考から恩恵を受け、質的および定量的な評価において、印象的なビデオ生成結果を達成する。
- 参考スコア(独自算出の注目度): 48.475478021553755
- License:
- Abstract: We introduce Open-Sora Plan, an open-source project that aims to contribute a large generation model for generating desired high-resolution videos with long durations based on various user inputs. Our project comprises multiple components for the entire video generation process, including a Wavelet-Flow Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various condition controllers. Moreover, many assistant strategies for efficient training and inference are designed, and a multi-dimensional data curation pipeline is proposed for obtaining desired high-quality data. Benefiting from efficient thoughts, our Open-Sora Plan achieves impressive video generation results in both qualitative and quantitative evaluations. We hope our careful design and practical experience can inspire the video generation research community. All our codes and model weights are publicly available at \url{https://github.com/PKU-YuanGroup/Open-Sora-Plan}.
- Abstract(参考訳): 我々は,様々なユーザ入力に基づいて,所望の高解像度ビデオを生成するための大規模モデルの提供を目的としたオープンソースプロジェクトOpen-Sora Planを紹介する。
本プロジェクトは,Wavelet-Flow Variational Autoencoder,Joint Image-Video Skiparse Denoiser,各種コンディションコントローラなど,ビデオ生成プロセス全体のコンポーネントで構成されている。
さらに、効率的なトレーニングと推論のための多くの補助戦略が設計され、望まれる高品質なデータを得るための多次元データキュレーションパイプラインが提案されている。
我々のOpen-Sora Planは、効率的な思考から恩恵を受け、質的および定量的な評価において、印象的なビデオ生成結果を達成する。
私たちの注意深いデザインと実践的な経験が、ビデオ生成研究コミュニティに刺激を与えてくれることを願っています。
コードとモデルの重み付けはすべて、 \url{https://github.com/PKU-YuanGroup/Open-Sora-Plan}で公開されています。
関連論文リスト
- VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos [25.770675590118547]
VideoRAGは、非常に長いコンテキストのビデオの処理と理解に特化して設計された最初の検索拡張生成フレームワークである。
我々の中心となる革新は、(i)グラフベースのテキスト知識をシームレスに統合し、(ii)視覚的特徴を効率的に保存するマルチモーダルコンテキストエンコーディングである。
論文 参考訳(メタデータ) (2025-02-03T17:30:19Z) - Open-Sora: Democratizing Efficient Video Production for All [15.68402186082992]
高忠実度ビデオコンテンツを作成するために設計された,オープンソースのビデオ生成モデルであるOpen-Soraを開発した。
Open-Soraは、テキスト・ツー・イメージ生成、テキスト・ツー・ビデオ生成、画像・ビデオ生成など、幅広いビジュアル生成タスクをサポートしている。
オープンソース原則を受け入れることで、Open-Soraはトレーニング/推論/データ準備コードとモデルウェイトへの完全なアクセスを民主化します。
論文 参考訳(メタデータ) (2024-12-29T08:52:49Z) - GIRAFFE: Design Choices for Extending the Context Length of Visual Language Models [20.976319536167512]
我々は、視覚言語モデルの長期的性能を高める効果的なソリューションを確立することを目指している。
本稿では, 有効長が128Kまで拡張されたジリンを提案する。
コード、データ、モデルをオープンソースにします。
論文 参考訳(メタデータ) (2024-12-17T09:57:21Z) - HunyuanVideo: A Systematic Framework For Large Video Generative Models [82.4392082688739]
HunyuanVideoは、革新的なオープンソースのビデオファンデーションモデルだ。
データキュレーション、高度なアーキテクチャ設計、プログレッシブモデルスケーリング、トレーニングが組み込まれている。
その結果,13億以上のパラメータを持つビデオ生成モデルの訓練に成功した。
論文 参考訳(メタデータ) (2024-12-03T23:52:37Z) - SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。
SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。
実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文 参考訳(メタデータ) (2024-11-28T08:07:32Z) - DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos [51.90501863934735]
本稿では,オープンワールドビデオの複雑な詳細を伴う時間的に一貫した長深さシーケンスを生成するDepthCrafterを提案する。
オープンワールドビデオの一般化能力は、事前訓練された画像間拡散モデルからビデオ間拡散モデルを訓練することによって達成される。
トレーニング手法により、モデルは、最大110フレームまでの可変長の深度シーケンスを生成し、リアルかつ合成されたデータセットから、正確な深度の詳細と豊富な内容の多様性を抽出することができる。
論文 参考訳(メタデータ) (2024-09-03T17:52:03Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。