論文の概要: Evolution of Video Generative Foundations
- arxiv url: http://arxiv.org/abs/2604.06339v1
- Date: Tue, 07 Apr 2026 18:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.175776
- Title: Evolution of Video Generative Foundations
- Title(参考訳): ビデオ生成ファウンデーションの進化
- Authors: Teng Hu, Jiangning Zhang, Hongrui Huang, Ran Yi, Zihan Su, Jieyu Weng, Zhucun Xue, Lizhuang Ma, Ming-Hsuan Yang, Dacheng Tao,
- Abstract要約: AIGCはビデオ生成に革命をもたらし、OpenAIのSora、GoogleのVeo3、BytedanceのSeedanceといったシステムが、時間的に一貫性があり、セマンティックにリッチなビデオを合成できるようになった。
これらの進歩は、エンターテイメント、教育、バーチャルリアリティーにまたがる応用によって、現実世界のダイナミクスをシミュレートする"ワールドモデル"を構築するための道を開いた。
- 参考スコア(独自算出の注目度): 136.7673610949465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Artificial Intelligence Generated Content (AIGC) has revolutionized video generation, enabling systems ranging from proprietary pioneers like OpenAI's Sora, Google's Veo3, and Bytedance's Seedance to powerful open-source contenders like Wan and HunyuanVideo to synthesize temporally coherent and semantically rich videos. These advancements pave the way for building "world models" that simulate real-world dynamics, with applications spanning entertainment, education, and virtual reality. However, existing reviews on video generation often focus on narrow technical fields, e.g., Generative Adversarial Networks (GAN) and diffusion models, or specific tasks (e. g., video editing), lacking a comprehensive perspective on the field's evolution, especially regarding Auto-Regressive (AR) models and integration of multimodal information. To address these gaps, this survey firstly provides a systematic review of the development of video generation technology, tracing its evolution from early GANs to dominant diffusion models, and further to emerging AR-based and multimodal techniques. We conduct an in-depth analysis of the foundational principles, key advancements, and comparative strengths/limitations. Then, we explore emerging trends in multimodal video generation, emphasizing the integration of diverse data types to enhance contextual awareness. Finally, by bridging historical developments and contemporary innovations, this survey offers insights to guide future research in video generation and its applications, including virtual/augmented reality, personalized education, autonomous driving simulations, digital entertainment, and advanced world models, in this rapidly evolving field. For more details, please refer to the project at https://github.com/sjtuplayer/Awesome-Video-Foundations.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の急速な進歩は、OpenAIのSora、GoogleのVeo3、BytedanceのSeedanceのようなプロプライエタリなパイオニアから、WanやHunyuanVideoといった強力なオープンソース競合者まで、時間的に一貫性があり、セマンティックにリッチなビデオの合成を可能にする、ビデオ生成に革命をもたらした。
これらの進歩は、エンターテイメント、教育、バーチャルリアリティーにまたがる応用によって、現実世界のダイナミクスをシミュレートする"ワールドモデル"を構築するための道を開いた。
しかしながら、ビデオ生成に関する既存のレビューでは、狭義の技術分野、例えばGAN(Generative Adversarial Networks)や拡散モデル、あるいは特定のタスク(例えばビデオ編集)に焦点を当てており、特にAuto-Regressive (AR)モデルやマルチモーダル情報の統合に関して、現場の進化に関する包括的な視点を欠いている。
これらのギャップに対処するため、この調査はまず、ビデオ生成技術の発展を体系的にレビューし、初期のGANから支配的な拡散モデルへの進化を辿り、さらに新たなARベースおよびマルチモーダル技術へと発展していく。
基本原則、鍵となる進歩、および比較強度/上昇の詳細な分析を行う。
そこで我々は,マルチモーダルビデオ生成における新たなトレンドを探求し,文脈認識を高めるために多様なデータ型の統合を強調した。
最後に、歴史的発展と現代的イノベーションの橋渡しによって、この調査は、この急速に発展する分野において、バーチャル/拡張現実、パーソナライズされた教育、自律運転シミュレーション、デジタルエンターテイメント、先進世界モデルを含む、ビデオ生成とその応用における将来の研究の指針を提供する。
詳細はhttps://github.com/sjtuplayer/Awesome-Video-Foundations.comを参照してください。
関連論文リスト
- Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。
まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。
次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文 参考訳(メタデータ) (2025-07-22T06:05:34Z) - Open-Sora: Democratizing Efficient Video Production for All [15.68402186082992]
高忠実度ビデオコンテンツを作成するために設計された,オープンソースのビデオ生成モデルであるOpen-Soraを開発した。
Open-Soraは、テキスト・ツー・イメージ生成、テキスト・ツー・ビデオ生成、画像・ビデオ生成など、幅広いビジュアル生成タスクをサポートしている。
オープンソース原則を受け入れることで、Open-Soraはトレーニング/推論/データ準備コードとモデルウェイトへの完全なアクセスを民主化します。
論文 参考訳(メタデータ) (2024-12-29T08:52:49Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - The Dawn of Video Generation: Preliminary Explorations with SORA-like Models [14.528428430884015]
テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、ビデオ・トゥ・ビデオ(V2V)生成を含む高品質なビデオ生成は、コンテンツ作成においてかなりの重要性を持っている。
SORAのようなモデルでは、高解像度、より自然な動き、より良い視覚言語アライメント、コントロール可能性の向上といった高度なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-10-07T17:35:10Z) - Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [30.245348014602577]
本稿では,テキストからの映像生成の進化について論じる。まずMNISTの数値をアニメーション化し,ソラで物理世界をシミュレートする。
Soraが生成するビデオの欠点に関するレビューでは、ビデオ生成の様々な実現可能な側面において、より深い研究を求める声が浮き彫りになっている。
テキスト・ビデオ・ジェネレーションの研究は、まだ初期段階であり、学際的な研究コミュニティからの貢献が必要であると結論付けている。
論文 参考訳(メタデータ) (2024-03-08T07:58:13Z) - A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming [26.082980156232086]
生成人工知能(Generative AI)と大規模言語モデル(LLM)は、ビデオ技術の分野を変えつつある。
この論文は、高度にリアルなビデオ制作におけるこれらの技術の革新的利用を強調している。
ビデオストリーミングの分野では、LLMがより効率的でユーザ中心のストリーミング体験にどのように貢献するかを論じる。
論文 参考訳(メタデータ) (2024-01-30T14:37:10Z) - State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。
また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。
利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文 参考訳(メタデータ) (2023-10-11T05:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。