論文の概要: Open-Sora: Democratizing Efficient Video Production for All
- arxiv url: http://arxiv.org/abs/2412.20404v1
- Date: Sun, 29 Dec 2024 08:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:22.871111
- Title: Open-Sora: Democratizing Efficient Video Production for All
- Title(参考訳): Open-Sora: 効率的なビデオ制作を民主化
- Authors: Zangwei Zheng, Xiangyu Peng, Tianji Yang, Chenhui Shen, Shenggui Li, Hongxin Liu, Yukun Zhou, Tianyi Li, Yang You,
- Abstract要約: 高忠実度ビデオコンテンツを作成するために設計された,オープンソースのビデオ生成モデルであるOpen-Soraを開発した。
Open-Soraは、テキスト・ツー・イメージ生成、テキスト・ツー・ビデオ生成、画像・ビデオ生成など、幅広いビジュアル生成タスクをサポートしている。
オープンソース原則を受け入れることで、Open-Soraはトレーニング/推論/データ準備コードとモデルウェイトへの完全なアクセスを民主化します。
- 参考スコア(独自算出の注目度): 15.68402186082992
- License:
- Abstract: Vision and language are the two foundational senses for humans, and they build up our cognitive ability and intelligence. While significant breakthroughs have been made in AI language ability, artificial visual intelligence, especially the ability to generate and simulate the world we see, is far lagging behind. To facilitate the development and accessibility of artificial visual intelligence, we created Open-Sora, an open-source video generation model designed to produce high-fidelity video content. Open-Sora supports a wide spectrum of visual generation tasks, including text-to-image generation, text-to-video generation, and image-to-video generation. The model leverages advanced deep learning architectures and training/inference techniques to enable flexible video synthesis, which could generate video content of up to 15 seconds, up to 720p resolution, and arbitrary aspect ratios. Specifically, we introduce Spatial-Temporal Diffusion Transformer (STDiT), an efficient diffusion framework for videos that decouples spatial and temporal attention. We also introduce a highly compressive 3D autoencoder to make representations compact and further accelerate training with an ad hoc training strategy. Through this initiative, we aim to foster innovation, creativity, and inclusivity within the community of AI content creation. By embracing the open-source principle, Open-Sora democratizes full access to all the training/inference/data preparation codes as well as model weights. All resources are publicly available at: https://github.com/hpcaitech/Open-Sora.
- Abstract(参考訳): 視覚と言語は人間の2つの基礎的な感覚であり、認知能力と知性を構築します。
AI言語の能力において大きなブレークスルーが起きているが、人工知能、特に私たちが見ている世界を生成、シミュレートする能力は、はるかに遅れている。
人工知能の開発とアクセシビリティを高めるために,我々は,高忠実度映像コンテンツを生成するために設計された,オープンソースのビデオ生成モデルOpen-Soraを開発した。
Open-Soraは、テキスト・ツー・イメージ生成、テキスト・ツー・ビデオ生成、画像・ビデオ生成など、幅広いビジュアル生成タスクをサポートしている。
このモデルは高度なディープラーニングアーキテクチャとトレーニング/推論技術を活用し、フレキシブルなビデオ合成を可能にする。
具体的には、空間的・時間的注意を分離するビデオの効率的な拡散フレームワークである空間時間拡散変換器(STDiT)を紹介する。
また,高度に圧縮された3Dオートエンコーダを導入し,表現をコンパクト化し,アドホックなトレーニング戦略によるトレーニングをさらに加速する。
このイニシアチブを通じて、AIコンテンツ作成コミュニティにおけるイノベーション、創造性、およびインクリビティを促進することを目指しています。
オープンソース原則を受け入れることで、Open-Soraはトレーニング/推論/データ準備コードとモデルウェイトへの完全なアクセスを民主化します。
すべてのリソースは、https://github.com/hpcaitech/Open-Soraで公開されています。
関連論文リスト
- VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。
我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文 参考訳(メタデータ) (2025-01-16T18:59:10Z) - Movie Gen: SWOT Analysis of Meta's Generative AI Foundation Model for Transforming Media Generation, Advertising, and Entertainment Industries [0.8463972278020965]
本稿では,最先端な生成AI基盤モデルであるMetas Movie GenのSWOT解析を包括的に行う。
我々は、高解像度のビデオ生成、正確な編集、シームレスなオーディオ統合など、その強みを探求する。
生成AIを取り巻く規制的・倫理的考察を,コンテンツ信頼性,文化的表現,責任ある利用といった問題に焦点をあてて検討する。
論文 参考訳(メタデータ) (2024-12-05T03:01:53Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text
and Image Inputs [53.21307319844615]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。
このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文 参考訳(メタデータ) (2024-03-10T16:09:02Z) - Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming [26.082980156232086]
生成人工知能(Generative AI)と大規模言語モデル(LLM)は、ビデオ技術の分野を変えつつある。
この論文は、高度にリアルなビデオ制作におけるこれらの技術の革新的利用を強調している。
ビデオストリーミングの分野では、LLMがより効率的でユーザ中心のストリーミング体験にどのように貢献するかを論じる。
論文 参考訳(メタデータ) (2024-01-30T14:37:10Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。