論文の概要: From Sora What We Can See: A Survey of Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2405.10674v1
- Date: Fri, 17 May 2024 10:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 16:22:57.718536
- Title: From Sora What We Can See: A Survey of Text-to-Video Generation
- Title(参考訳): Soraから見えるもの:テキスト・ビデオ・ジェネレーションに関する調査
- Authors: Rui Sun, Yumin Zhang, Tejal Shah, Jiahao Sun, Shuoying Zhang, Wenqi Li, Haoran Duan, Bo Wei, Rajiv Ranjan,
- Abstract要約: OpenAIが開発したSoraは、ミニレベルの世界シミュレーション能力を持つ。
その顕著な成功にもかかわらず、Soraは解決すべきさまざまな障害に直面している。
- 参考スコア(独自算出の注目度): 10.204414498390575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With impressive achievements made, artificial intelligence is on the path forward to artificial general intelligence. Sora, developed by OpenAI, which is capable of minute-level world-simulative abilities can be considered as a milestone on this developmental path. However, despite its notable successes, Sora still encounters various obstacles that need to be resolved. In this survey, we embark from the perspective of disassembling Sora in text-to-video generation, and conducting a comprehensive review of literature, trying to answer the question, \textit{From Sora What We Can See}. Specifically, after basic preliminaries regarding the general algorithms are introduced, the literature is categorized from three mutually perpendicular dimensions: evolutionary generators, excellent pursuit, and realistic panorama. Subsequently, the widely used datasets and metrics are organized in detail. Last but more importantly, we identify several challenges and open problems in this domain and propose potential future directions for research and development.
- Abstract(参考訳): 人工知能は、目覚ましい成果によって、人工知能への道のりをたどっている。
OpenAIが開発したSoraは、この発展過程のマイルストーンとみなすことができる。
しかし、その顕著な成功にもかかわらず、ソラは解決すべき様々な障害に直面している。
本調査では,テキスト・ビデオ・ジェネレーションにおけるSoraの分解と文献の総合的なレビューを行い,その疑問に答えるために,<textit{From Sora What We Can See} という質問に答える。
具体的には、一般的なアルゴリズムに関する基本的な予備研究が導入された後、進化的ジェネレータ、優れた追求、現実的なパノラマという、相互に垂直な3つの次元から分類される。
その後、広く使われているデータセットとメトリクスが詳細に整理される。
最後に、この領域におけるいくつかの課題とオープンな課題を特定し、研究と開発の将来的な方向性を提案する。
関連論文リスト
- What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - "Sora is Incredible and Scary": Emerging Governance Challenges of Text-to-Video Generative AI Models [1.4999444543328293]
我々は,Soraの統合に対する人々の認識と懸念を明らかにすることを目的とした質的なソーシャルメディア分析を報告する。
コンテンツ制作関連産業に対するSoraの影響について,人々が最も懸念していることが判明した。
潜在的な規制ソリューションには、AIコンテンツの法律で強化されたラベル付けと、一般向けのAIリテラシー教育が含まれていた。
論文 参考訳(メタデータ) (2024-04-10T02:03:59Z) - Mora: Enabling Generalist Video Generation via A Multi-Agent Framework [19.955765656021367]
Soraは、社会全体で大きな注目を集めた最初の大規模ジェネラリストビデオ生成モデルである。
本稿では,複数の高度な視覚AIエージェントを組み込んだマルチエージェントフレームワークであるMoraを提案し,Soraがデモした汎用ビデオ生成を再現する。
論文 参考訳(メタデータ) (2024-03-20T02:19:21Z) - Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [30.245348014602577]
本稿では,テキストからの映像生成の進化について論じる。まずMNISTの数値をアニメーション化し,ソラで物理世界をシミュレートする。
Soraが生成するビデオの欠点に関するレビューでは、ビデオ生成の様々な実現可能な側面において、より深い研究を求める声が浮き彫りになっている。
テキスト・ビデオ・ジェネレーションの研究は、まだ初期段階であり、学際的な研究コミュニティからの貢献が必要であると結論付けている。
論文 参考訳(メタデータ) (2024-03-08T07:58:13Z) - Sora OpenAI's Prelude: Social Media Perspectives on Sora OpenAI and the Future of AI Video Generation [30.556463355261695]
本研究では, Reddit 上でソーシャルメディア上での議論を通じて, 先駆的なGen-AI ビデオ生成ツールである Sora OpenAI に対する一般大衆の認識を調査した。
この分析は、コンテンツ制作のポジティブな変化を予測し、Soraがビデオマーケティングを民主化し、ゲーム開発を革新すると予想している。
ディープフェイクと偽情報の可能性には懸念があり、偽情報と偏見に対処する戦略の必要性が強調されている。
論文 参考訳(メタデータ) (2024-03-02T00:16:22Z) - Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [59.54172719450617]
Sora(ソラ)は、OpenAIが2024年2月にリリースした、テキストからビデオへの生成AIモデルである。
本稿では,モデルの背景,関連する技術,応用,残る課題,今後の方向性について概説する。
論文 参考訳(メタデータ) (2024-02-27T03:30:58Z) - Incremental 3D Scene Completion for Safe and Efficient Exploration
Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。
本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。
最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文 参考訳(メタデータ) (2022-08-17T14:19:33Z) - What Is Considered Complete for Visual Recognition? [110.43159801737222]
我々は、学習・バイ・圧縮という新しいタイプの事前学習タスクを提唱する。
計算モデルは、コンパクトな特徴を用いて視覚データを表現するように最適化されている。
セマンティックアノテーションは、利用可能であれば、弱い監督の役割を担います。
論文 参考訳(メタデータ) (2021-05-28T16:59:14Z) - An Exploration of Embodied Visual Exploration [97.21890864063872]
身体的コンピュータビジョンは、新しい非構造環境におけるロボットに対する知覚を考慮に入れている。
既存の視覚探索アルゴリズムの分類を提示し、それらをベンチマークするための標準フレームワークを作成する。
次に,提案フレームワークを用いた4つの最先端パラダイムの徹底的な実証的研究を行った。
論文 参考訳(メタデータ) (2020-01-07T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。