Fugu-MT 論文翻訳(概要): Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation

論文の概要: Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation

arxiv url: http://arxiv.org/abs/2403.05131v1
Date: Fri, 8 Mar 2024 07:58:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 20:39:56.935835
Title: Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation
Title（参考訳）: AGIワールドモデルとしてのソラテキスト対ビデオ生成に関する総括
Authors: Joseph Cho, Fachrina Dewi Puspitasari, Sheng Zheng, Jingyao Zheng, Lik-Hang Lee, Tae-Ho Kim, Choong Seon Hong, Chaoning Zhang
Abstract要約: 従来の生成モデルから最先端のSoraモデルへの移行に焦点を当て,テキスト・ビデオ技術の進歩を批判的に考察する。この調査は、新参者と有能な研究者の両方を対象としたもので、テキスト・ビデオ・ジェネレーションの分野におけるさらなる革新と議論を促進することを目的としている。
参考スコア（独自算出の注目度）: 31.548021388800432
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Text-to-video generation marks a significant frontier in the rapidly evolving domain of generative AI, integrating advancements in text-to-image synthesis, video captioning, and text-guided editing. This survey critically examines the progression of text-to-video technologies, focusing on the shift from traditional generative models to the cutting-edge Sora model, highlighting developments in scalability and generalizability. Distinguishing our analysis from prior works, we offer an in-depth exploration of the technological frameworks and evolutionary pathways of these models. Additionally, we delve into practical applications and address ethical and technological challenges such as the inability to perform multiple entity handling, comprehend causal-effect learning, understand physical interaction, perceive object scaling and proportioning, and combat object hallucination which is also a long-standing problem in generative models. Our comprehensive discussion covers the topic of enablement of text-to-video generation models as human-assistive tools and world models, as well as eliciting model's shortcomings and summarizing future improvement direction that mainly centers around training datasets and evaluation metrics (both automatic and human-centered). Aimed at both newcomers and seasoned researchers, this survey seeks to catalyze further innovation and discussion in the growing field of text-to-video generation, paving the way for more reliable and practical generative artificial intelligence technologies.
Abstract（参考訳）: テキスト・ツー・ビデオ生成は、生成AIの急速に進化する領域において重要なフロンティアであり、テキスト・ツー・イメージ合成、ビデオキャプション、テキスト誘導編集の進歩を統合する。本調査は,従来の生成モデルから最先端soraモデルへの移行に注目し,スケーラビリティと汎用性の発展を強調する,テキスト対ビデオ技術の進歩を批判的に検討する。従来の研究から分析を排除し、これらのモデルの技術的な枠組みと進化の経路を詳細に調査する。さらに,複数のエンティティハンドリングの実行不能,因果的効果学習の理解,物理的インタラクションの理解,オブジェクトのスケーリングと比例の知覚,生成モデルにおける長年の問題であるオブジェクト幻覚との闘いといった倫理的,技術的課題にも対処した。総合的な議論では、テキスト対ビデオ生成モデルの実現を人間支援ツールや世界モデルとして取り上げ、モデルの欠点を引き合いに出し、主にデータセットのトレーニングと評価メトリクス(自動化と人間中心の両方)に焦点を当てた将来の改善方向性を要約する。新参者と熟練研究者の両方を対象としたこの調査は、テキスト対ビデオ生成の分野におけるさらなるイノベーションと議論を触媒し、より信頼性が高く実用的な人工知能技術への道を開くことを目的としている。

関連論文リスト

Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文参考訳（メタデータ） (2025-07-22T06:05:34Z)
ASurvey: Spatiotemporal Consistency in Video Generation [72.82267240482874]
動的視覚生成手法を利用した映像生成手法は人工知能生成コンテンツ(AIGC)の境界を押し下げる最近の研究は、映像生成における時間的一貫性の問題に対処することを目的としているが、この観点からの文献レビューはほとんど行われていない。基礎モデル,情報表現,生成スキーム,後処理技術,評価指標の5つの重要な側面を網羅して,映像生成の最近の進歩を体系的に検討した。
論文参考訳（メタデータ） (2025-02-25T05:20:51Z)
A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights [8.192172339127657]
ヒューマンビデオ生成は、テキスト、オーディオ、ポーズなどの制御条件が与えられた生成モデルを用いて、2次元の人体ビデオシーケンスを合成することを目的としている。近年の世代モデルの発展は、この分野への関心の高まりに確かな基盤を築き上げている。著しい進歩にもかかわらず、キャラクターの整合性、人間の動きの複雑さ、環境との関わりの難しさなど、人間の映像生成の課題は依然として困難なままである。
論文参考訳（メタデータ） (2024-07-11T12:09:05Z)
The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective [4.471962177124311]
ストーリーテリングの観点からテキスト・ビデオ生成について検討するが,研究はほとんど行われていない。本稿では,映像のストーリーテリングに関する評価フレームワークを提案し,今後の方向性について論じる。
論文参考訳（メタデータ） (2024-05-13T02:25:08Z)
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [59.54172719450617]
Sora(ソラ)は、OpenAIが2024年2月にリリースした、テキストからビデオへの生成AIモデルである。本稿では,モデルの背景,関連する技術,応用,残る課題,今後の方向性について概説する。
論文参考訳（メタデータ） (2024-02-27T03:30:58Z)
A Survey of AI Text-to-Image and AI Text-to-Video Generators [0.4662017507844857]
テキスト・トゥ・イメージとテキスト・トゥ・ビデオAI生成モデル(Text-to-Image and Text-to-Video AI generation model)は、ディープラーニングと自然言語処理(NLP)技術を使用して、テキスト記述から画像とビデオを作成する革新的な技術である。本稿では,テキスト・トゥ・イメージとテキスト・トゥ・ビデオAIの分野における最先端のアプローチについて検討する。
論文参考訳（メタデータ） (2023-11-10T17:33:58Z)
State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文参考訳（メタデータ） (2023-10-11T05:32:29Z)
Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文参考訳（メタデータ） (2023-05-18T11:06:15Z)
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文参考訳（メタデータ） (2023-03-23T17:01:59Z)
Video Generation from Text Employing Latent Path Construction for Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文参考訳（メタデータ） (2021-07-29T06:28:20Z)
Pretrained Language Models for Text Generation: A Survey [46.03096493973206]
本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
論文参考訳（メタデータ） (2021-05-21T12:27:44Z)
A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文参考訳（メタデータ） (2020-10-09T06:46:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。