論文の概要: Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2403.13248v2
- Date: Fri, 22 Mar 2024 12:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 11:48:40.933854
- Title: Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
- Title(参考訳): Mora: マルチエージェントフレームワークによるジェネラリストビデオ生成の実現
- Authors: Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun,
- Abstract要約: Soraは、社会全体で大きな注目を集めた最初の大規模ジェネラリストビデオ生成モデルである。
本稿では,複数の高度な視覚AIエージェントを組み込んだマルチエージェントフレームワークであるMoraを提案し,Soraがデモした汎用ビデオ生成を再現する。
- 参考スコア(独自算出の注目度): 19.955765656021367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sora is the first large-scale generalist video generation model that garnered significant attention across society. Since its launch by OpenAI in February 2024, no other video generation models have paralleled {Sora}'s performance or its capacity to support a broad spectrum of video generation tasks. Additionally, there are only a few fully published video generation models, with the majority being closed-source. To address this gap, this paper proposes a new multi-agent framework Mora, which incorporates several advanced visual AI agents to replicate generalist video generation demonstrated by Sora. In particular, Mora can utilize multiple visual agents and successfully mimic Sora's video generation capabilities in various tasks, such as (1) text-to-video generation, (2) text-conditional image-to-video generation, (3) extend generated videos, (4) video-to-video editing, (5) connect videos and (6) simulate digital worlds. Our extensive experimental results show that Mora achieves performance that is proximate to that of Sora in various tasks. However, there exists an obvious performance gap between our work and Sora when assessed holistically. In summary, we hope this project can guide the future trajectory of video generation through collaborative AI agents.
- Abstract(参考訳): Soraは、社会全体で大きな注目を集めた最初の大規模ジェネラリストビデオ生成モデルである。
2024年2月にOpenAIによってローンチされて以来、他のビデオ生成モデルは、Sora}のパフォーマンスや、幅広いビデオ生成タスクをサポートする能力に並列化していない。
さらに、完全に公開されたビデオ生成モデルがいくつかあるだけで、大半はクローズドソースである。
このギャップに対処するために、Soraがデモしたジェネラリストビデオ生成を再現するために、いくつかの高度なビジュアルAIエージェントを組み込んだ新しいマルチエージェントフレームワークであるMoraを提案する。
特に、モラは複数の視覚エージェントを利用し、(1)テキスト・ツー・ビデオ生成、(2)テキスト・コンディショナル・イメージ・トゥ・ビデオ生成、(3)拡張ビデオ、(4)ビデオ・トゥ・ビデオ編集、(5)ビデオ接続、(6)デジタル世界をシミュレートするといった様々なタスクにおいて、ソラのビデオ生成機能をうまく模倣することができる。
大規模な実験結果から,モラは様々なタスクにおいて,ソラのそれに近い性能を達成できることが示唆された。
しかしながら、私たちの仕事とSoraの間には明らかにパフォーマンスのギャップがあります。
要約すると、このプロジェクトが、協力的なAIエージェントを通じて、ビデオ生成の将来の軌跡を導いてくれることを願っている。
関連論文リスト
- VILP: Imitation Learning with Latent Video Planning [19.25411361966752]
本稿では、遅延ビデオ計画(VILP)による模倣学習を紹介する。
複数のビューから高度にタイムアラインなビデオを生成することができる。
本稿では,映像生成モデルをロボットポリシーに効果的に統合する方法の実践例を提供する。
論文 参考訳(メタデータ) (2025-02-03T19:55:57Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text
and Image Inputs [53.21307319844615]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。
このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文 参考訳(メタデータ) (2024-03-10T16:09:02Z) - PEEKABOO: Interactive Video Generation via Masked-Diffusion [16.27046318032809]
モジュールベースのビデオ生成モデルにビデオ制御を組み込むための第1のソリューションを提案する。
Peekabooは、既存のビデオ生成モデルとシームレスに統合され、追加のトレーニングや推論オーバーヘッドを必要とせずに、コントロールを提供する。
我々の広範囲な質的および定量的評価により、PeekabooはmIoUのベースラインモデルよりも最大3.8倍改善していることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T18:43:05Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。