論文の概要: Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2403.13248v2
- Date: Fri, 22 Mar 2024 12:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 11:48:40.933854
- Title: Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
- Title(参考訳): Mora: マルチエージェントフレームワークによるジェネラリストビデオ生成の実現
- Authors: Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun,
- Abstract要約: Soraは、社会全体で大きな注目を集めた最初の大規模ジェネラリストビデオ生成モデルである。
本稿では,複数の高度な視覚AIエージェントを組み込んだマルチエージェントフレームワークであるMoraを提案し,Soraがデモした汎用ビデオ生成を再現する。
- 参考スコア(独自算出の注目度): 19.955765656021367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sora is the first large-scale generalist video generation model that garnered significant attention across society. Since its launch by OpenAI in February 2024, no other video generation models have paralleled {Sora}'s performance or its capacity to support a broad spectrum of video generation tasks. Additionally, there are only a few fully published video generation models, with the majority being closed-source. To address this gap, this paper proposes a new multi-agent framework Mora, which incorporates several advanced visual AI agents to replicate generalist video generation demonstrated by Sora. In particular, Mora can utilize multiple visual agents and successfully mimic Sora's video generation capabilities in various tasks, such as (1) text-to-video generation, (2) text-conditional image-to-video generation, (3) extend generated videos, (4) video-to-video editing, (5) connect videos and (6) simulate digital worlds. Our extensive experimental results show that Mora achieves performance that is proximate to that of Sora in various tasks. However, there exists an obvious performance gap between our work and Sora when assessed holistically. In summary, we hope this project can guide the future trajectory of video generation through collaborative AI agents.
- Abstract(参考訳): Soraは、社会全体で大きな注目を集めた最初の大規模ジェネラリストビデオ生成モデルである。
2024年2月にOpenAIによってローンチされて以来、他のビデオ生成モデルは、Sora}のパフォーマンスや、幅広いビデオ生成タスクをサポートする能力に並列化していない。
さらに、完全に公開されたビデオ生成モデルがいくつかあるだけで、大半はクローズドソースである。
このギャップに対処するために、Soraがデモしたジェネラリストビデオ生成を再現するために、いくつかの高度なビジュアルAIエージェントを組み込んだ新しいマルチエージェントフレームワークであるMoraを提案する。
特に、モラは複数の視覚エージェントを利用し、(1)テキスト・ツー・ビデオ生成、(2)テキスト・コンディショナル・イメージ・トゥ・ビデオ生成、(3)拡張ビデオ、(4)ビデオ・トゥ・ビデオ編集、(5)ビデオ接続、(6)デジタル世界をシミュレートするといった様々なタスクにおいて、ソラのビデオ生成機能をうまく模倣することができる。
大規模な実験結果から,モラは様々なタスクにおいて,ソラのそれに近い性能を達成できることが示唆された。
しかしながら、私たちの仕事とSoraの間には明らかにパフォーマンスのギャップがあります。
要約すると、このプロジェクトが、協力的なAIエージェントを通じて、ビデオ生成の将来の軌跡を導いてくれることを願っている。
関連論文リスト
- WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text
and Image Inputs [53.21307319844615]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。
このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文 参考訳(メタデータ) (2024-03-10T16:09:02Z) - Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [59.54172719450617]
Sora(ソラ)は、OpenAIが2024年2月にリリースした、テキストからビデオへの生成AIモデルである。
本稿では,モデルの背景,関連する技術,応用,残る課題,今後の方向性について概説する。
論文 参考訳(メタデータ) (2024-02-27T03:30:58Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - GPT4Video: A Unified Multimodal Large Language Model for
lnstruction-Followed Understanding and Safety-Aware Generation [103.56612788682973]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。
具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文 参考訳(メタデータ) (2023-11-25T04:05:59Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Diverse Video Generation from a Single Video [19.973264262422273]
GANは、単一のビデオでトレーニングされた生成および操作タスクを実行することができる。
本稿では,単一のビデオから生成するGANの必要性を疑問視する。
様々な生成タスクと操作タスクのための非パラメトリックベースラインを導入する。
論文 参考訳(メタデータ) (2022-05-11T18:36:48Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。