論文の概要: Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2403.05131v2
- Date: Fri, 7 Jun 2024 07:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 19:37:58.028011
- Title: Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation
- Title(参考訳): AGIワールドモデルとしてのSora : テキスト・ビデオ生成に関する全調査
- Authors: Joseph Cho, Fachrina Dewi Puspitasari, Sheng Zheng, Jingyao Zheng, Lik-Hang Lee, Tae-Ho Kim, Choong Seon Hong, Chaoning Zhang,
- Abstract要約: 本稿では,テキストからの映像生成の進化について論じる。まずMNISTの数値をアニメーション化し,ソラで物理世界をシミュレートする。
Soraが生成するビデオの欠点に関するレビューでは、ビデオ生成の様々な実現可能な側面において、より深い研究を求める声が浮き彫りになっている。
テキスト・ビデオ・ジェネレーションの研究は、まだ初期段階であり、学際的な研究コミュニティからの貢献が必要であると結論付けている。
- 参考スコア(独自算出の注目度): 30.245348014602577
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The evolution of video generation from text, starting with animating MNIST numbers to simulating the physical world with Sora, has progressed at a breakneck speed over the past seven years. While often seen as a superficial expansion of the predecessor text-to-image generation model, text-to-video generation models are developed upon carefully engineered constituents. Here, we systematically discuss these elements consisting of but not limited to core building blocks (vision, language, and temporal) and supporting features from the perspective of their contributions to achieving a world model. We employ the PRISMA framework to curate 97 impactful research articles from renowned scientific databases primarily studying video synthesis using text conditions. Upon minute exploration of these manuscripts, we observe that text-to-video generation involves more intricate technologies beyond the plain extension of text-to-image generation. Our additional review into the shortcomings of Sora-generated videos pinpoints the call for more in-depth studies in various enabling aspects of video generation such as dataset, evaluation metric, efficient architecture, and human-controlled generation. Finally, we conclude that the study of the text-to-video generation may still be in its infancy, requiring contribution from the cross-discipline research community towards its advancement as the first step to realize artificial general intelligence (AGI).
- Abstract(参考訳): テキストからの動画生成の進化は、MNISTの数値のアニメーションからSoraによる物理世界をシミュレートすることから始まり、過去7年間で途方もない速さで進行してきた。
従来のテキスト・ツー・イメージ生成モデルの表面的な拡張と見なされることが多いが、テキスト・ツー・ビデオ生成モデルは慎重に設計された構成物に基づいて開発されている。
そこで我々は,これらの要素を,コアビルディングブロック(ビジョン,言語,時間)に限らず体系的に議論し,世界モデルの実現への貢献の観点から,その特徴をサポートする。
我々は、PRISMAフレームワークを用いて、有名な科学データベースから、主にテキスト条件を用いたビデオ合成を研究する97のインパクトのある研究論文をキュレートする。
テキスト・ツー・ビデオ・ジェネレーションは,テキスト・ツー・イメージ・ジェネレーションの単純な拡張を超えて,より複雑な技術が関与している。
Sora生成ビデオの欠点に関するさらなるレビューは、データセット、評価基準、効率的なアーキテクチャ、人為的な生成など、ビデオ生成の様々な側面において、より深い研究を求めることを示唆している。
最後に、テキスト・ビデオ・ジェネレーションの研究はまだ初期段階であり、人工知能(AGI)の実現に向けた第一歩として、学際的な研究コミュニティからの貢献が必要であると結論付けている。
関連論文リスト
- A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights [8.192172339127657]
ヒューマンビデオ生成は、テキスト、オーディオ、ポーズなどの制御条件が与えられた生成モデルを用いて、2次元の人体ビデオシーケンスを合成することを目的としている。
近年の世代モデルの発展は、この分野への関心の高まりに確かな基盤を築き上げている。
著しい進歩にもかかわらず、キャラクターの整合性、人間の動きの複雑さ、環境との関わりの難しさなど、人間の映像生成の課題は依然として困難なままである。
論文 参考訳(メタデータ) (2024-07-11T12:09:05Z) - The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective [4.471962177124311]
ストーリーテリングの観点からテキスト・ビデオ生成について検討するが,研究はほとんど行われていない。
本稿では,映像のストーリーテリングに関する評価フレームワークを提案し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-05-13T02:25:08Z) - Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [59.54172719450617]
Sora(ソラ)は、OpenAIが2024年2月にリリースした、テキストからビデオへの生成AIモデルである。
本稿では,モデルの背景,関連する技術,応用,残る課題,今後の方向性について概説する。
論文 参考訳(メタデータ) (2024-02-27T03:30:58Z) - A Survey of AI Text-to-Image and AI Text-to-Video Generators [0.4662017507844857]
テキスト・トゥ・イメージとテキスト・トゥ・ビデオAI生成モデル(Text-to-Image and Text-to-Video AI generation model)は、ディープラーニングと自然言語処理(NLP)技術を使用して、テキスト記述から画像とビデオを作成する革新的な技術である。
本稿では,テキスト・トゥ・イメージとテキスト・トゥ・ビデオAIの分野における最先端のアプローチについて検討する。
論文 参考訳(メタデータ) (2023-11-10T17:33:58Z) - State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。
また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。
利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文 参考訳(メタデータ) (2023-10-11T05:32:29Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Pretrained Language Models for Text Generation: A Survey [46.03096493973206]
本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。
我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
論文 参考訳(メタデータ) (2021-05-21T12:27:44Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。