論文の概要: Sora as an AGI World Model? A Complete Survey on Text-to-Video
Generation
- arxiv url: http://arxiv.org/abs/2403.05131v1
- Date: Fri, 8 Mar 2024 07:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:39:56.935835
- Title: Sora as an AGI World Model? A Complete Survey on Text-to-Video
Generation
- Title(参考訳): AGIワールドモデルとしてのソラ
テキスト対ビデオ生成に関する総括
- Authors: Joseph Cho, Fachrina Dewi Puspitasari, Sheng Zheng, Jingyao Zheng,
Lik-Hang Lee, Tae-Ho Kim, Choong Seon Hong, Chaoning Zhang
- Abstract要約: 従来の生成モデルから最先端のSoraモデルへの移行に焦点を当て,テキスト・ビデオ技術の進歩を批判的に考察する。
この調査は、新参者と有能な研究者の両方を対象としたもので、テキスト・ビデオ・ジェネレーションの分野におけるさらなる革新と議論を促進することを目的としている。
- 参考スコア(独自算出の注目度): 31.548021388800432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-video generation marks a significant frontier in the rapidly evolving
domain of generative AI, integrating advancements in text-to-image synthesis,
video captioning, and text-guided editing. This survey critically examines the
progression of text-to-video technologies, focusing on the shift from
traditional generative models to the cutting-edge Sora model, highlighting
developments in scalability and generalizability. Distinguishing our analysis
from prior works, we offer an in-depth exploration of the technological
frameworks and evolutionary pathways of these models. Additionally, we delve
into practical applications and address ethical and technological challenges
such as the inability to perform multiple entity handling, comprehend
causal-effect learning, understand physical interaction, perceive object
scaling and proportioning, and combat object hallucination which is also a
long-standing problem in generative models. Our comprehensive discussion covers
the topic of enablement of text-to-video generation models as human-assistive
tools and world models, as well as eliciting model's shortcomings and
summarizing future improvement direction that mainly centers around training
datasets and evaluation metrics (both automatic and human-centered). Aimed at
both newcomers and seasoned researchers, this survey seeks to catalyze further
innovation and discussion in the growing field of text-to-video generation,
paving the way for more reliable and practical generative artificial
intelligence technologies.
- Abstract(参考訳): テキスト・ツー・ビデオ生成は、生成AIの急速に進化する領域において重要なフロンティアであり、テキスト・ツー・イメージ合成、ビデオキャプション、テキスト誘導編集の進歩を統合する。
本調査は,従来の生成モデルから最先端soraモデルへの移行に注目し,スケーラビリティと汎用性の発展を強調する,テキスト対ビデオ技術の進歩を批判的に検討する。
従来の研究から分析を排除し、これらのモデルの技術的な枠組みと進化の経路を詳細に調査する。
さらに,複数のエンティティハンドリングの実行不能,因果的効果学習の理解,物理的インタラクションの理解,オブジェクトのスケーリングと比例の知覚,生成モデルにおける長年の問題であるオブジェクト幻覚との闘いといった倫理的,技術的課題にも対処した。
総合的な議論では、テキスト対ビデオ生成モデルの実現を人間支援ツールや世界モデルとして取り上げ、モデルの欠点を引き合いに出し、主にデータセットのトレーニングと評価メトリクス(自動化と人間中心の両方)に焦点を当てた将来の改善方向性を要約する。
新参者と熟練研究者の両方を対象としたこの調査は、テキスト対ビデオ生成の分野におけるさらなるイノベーションと議論を触媒し、より信頼性が高く実用的な人工知能技術への道を開くことを目的としている。
関連論文リスト
- On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。
本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文 参考訳(メタデータ) (2024-02-28T15:19:33Z) - Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - Detection of Machine-Generated Text: Literature Survey [0.0]
本研究の目的は,機械生成テキスト分野における成果と成果をコンパイルし,合成することである。
また、機械が生成するテキストの傾向を概観し、より大きな社会的意味を探求する。
論文 参考訳(メタデータ) (2024-01-02T01:44:15Z) - A Survey of AI Text-to-Image and AI Text-to-Video Generators [0.4662017507844857]
テキスト・トゥ・イメージとテキスト・トゥ・ビデオAI生成モデル(Text-to-Image and Text-to-Video AI generation model)は、ディープラーニングと自然言語処理(NLP)技術を使用して、テキスト記述から画像とビデオを作成する革新的な技術である。
本稿では,テキスト・トゥ・イメージとテキスト・トゥ・ビデオAIの分野における最先端のアプローチについて検討する。
論文 参考訳(メタデータ) (2023-11-10T17:33:58Z) - State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。
また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。
利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文 参考訳(メタデータ) (2023-10-11T05:32:29Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。
我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。
本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文 参考訳(メタデータ) (2021-01-25T09:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。