論文の概要: Sora as an AGI World Model? A Complete Survey on Text-to-Video
Generation
- arxiv url: http://arxiv.org/abs/2403.05131v1
- Date: Fri, 8 Mar 2024 07:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:39:56.935835
- Title: Sora as an AGI World Model? A Complete Survey on Text-to-Video
Generation
- Title(参考訳): AGIワールドモデルとしてのソラ
テキスト対ビデオ生成に関する総括
- Authors: Joseph Cho, Fachrina Dewi Puspitasari, Sheng Zheng, Jingyao Zheng,
Lik-Hang Lee, Tae-Ho Kim, Choong Seon Hong, Chaoning Zhang
- Abstract要約: 従来の生成モデルから最先端のSoraモデルへの移行に焦点を当て,テキスト・ビデオ技術の進歩を批判的に考察する。
この調査は、新参者と有能な研究者の両方を対象としたもので、テキスト・ビデオ・ジェネレーションの分野におけるさらなる革新と議論を促進することを目的としている。
- 参考スコア(独自算出の注目度): 31.548021388800432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-video generation marks a significant frontier in the rapidly evolving
domain of generative AI, integrating advancements in text-to-image synthesis,
video captioning, and text-guided editing. This survey critically examines the
progression of text-to-video technologies, focusing on the shift from
traditional generative models to the cutting-edge Sora model, highlighting
developments in scalability and generalizability. Distinguishing our analysis
from prior works, we offer an in-depth exploration of the technological
frameworks and evolutionary pathways of these models. Additionally, we delve
into practical applications and address ethical and technological challenges
such as the inability to perform multiple entity handling, comprehend
causal-effect learning, understand physical interaction, perceive object
scaling and proportioning, and combat object hallucination which is also a
long-standing problem in generative models. Our comprehensive discussion covers
the topic of enablement of text-to-video generation models as human-assistive
tools and world models, as well as eliciting model's shortcomings and
summarizing future improvement direction that mainly centers around training
datasets and evaluation metrics (both automatic and human-centered). Aimed at
both newcomers and seasoned researchers, this survey seeks to catalyze further
innovation and discussion in the growing field of text-to-video generation,
paving the way for more reliable and practical generative artificial
intelligence technologies.
- Abstract(参考訳): テキスト・ツー・ビデオ生成は、生成AIの急速に進化する領域において重要なフロンティアであり、テキスト・ツー・イメージ合成、ビデオキャプション、テキスト誘導編集の進歩を統合する。
本調査は,従来の生成モデルから最先端soraモデルへの移行に注目し,スケーラビリティと汎用性の発展を強調する,テキスト対ビデオ技術の進歩を批判的に検討する。
従来の研究から分析を排除し、これらのモデルの技術的な枠組みと進化の経路を詳細に調査する。
さらに,複数のエンティティハンドリングの実行不能,因果的効果学習の理解,物理的インタラクションの理解,オブジェクトのスケーリングと比例の知覚,生成モデルにおける長年の問題であるオブジェクト幻覚との闘いといった倫理的,技術的課題にも対処した。
総合的な議論では、テキスト対ビデオ生成モデルの実現を人間支援ツールや世界モデルとして取り上げ、モデルの欠点を引き合いに出し、主にデータセットのトレーニングと評価メトリクス(自動化と人間中心の両方)に焦点を当てた将来の改善方向性を要約する。
新参者と熟練研究者の両方を対象としたこの調査は、テキスト対ビデオ生成の分野におけるさらなるイノベーションと議論を触媒し、より信頼性が高く実用的な人工知能技術への道を開くことを目的としている。
関連論文リスト
- A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights [8.192172339127657]
ヒューマンビデオ生成は、テキスト、オーディオ、ポーズなどの制御条件が与えられた生成モデルを用いて、2次元の人体ビデオシーケンスを合成することを目的としている。
近年の世代モデルの発展は、この分野への関心の高まりに確かな基盤を築き上げている。
著しい進歩にもかかわらず、キャラクターの整合性、人間の動きの複雑さ、環境との関わりの難しさなど、人間の映像生成の課題は依然として困難なままである。
論文 参考訳(メタデータ) (2024-07-11T12:09:05Z) - The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective [4.471962177124311]
ストーリーテリングの観点からテキスト・ビデオ生成について検討するが,研究はほとんど行われていない。
本稿では,映像のストーリーテリングに関する評価フレームワークを提案し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-05-13T02:25:08Z) - Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [59.54172719450617]
Sora(ソラ)は、OpenAIが2024年2月にリリースした、テキストからビデオへの生成AIモデルである。
本稿では,モデルの背景,関連する技術,応用,残る課題,今後の方向性について概説する。
論文 参考訳(メタデータ) (2024-02-27T03:30:58Z) - A Survey of AI Text-to-Image and AI Text-to-Video Generators [0.4662017507844857]
テキスト・トゥ・イメージとテキスト・トゥ・ビデオAI生成モデル(Text-to-Image and Text-to-Video AI generation model)は、ディープラーニングと自然言語処理(NLP)技術を使用して、テキスト記述から画像とビデオを作成する革新的な技術である。
本稿では,テキスト・トゥ・イメージとテキスト・トゥ・ビデオAIの分野における最先端のアプローチについて検討する。
論文 参考訳(メタデータ) (2023-11-10T17:33:58Z) - State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。
また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。
利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文 参考訳(メタデータ) (2023-10-11T05:32:29Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Pretrained Language Models for Text Generation: A Survey [46.03096493973206]
本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。
我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
論文 参考訳(メタデータ) (2021-05-21T12:27:44Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。