論文の概要: Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2403.13248v3
- Date: Thu, 03 Oct 2024 22:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:10.249816
- Title: Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
- Title(参考訳): Mora: マルチエージェントフレームワークによるジェネラリストビデオ生成の実現
- Authors: Zhengqing Yuan, Yixin Liu, Yihan Cao, Weixiang Sun, Haolong Jia, Ruoxi Chen, Zhaoxu Li, Bin Lin, Li Yuan, Lifang He, Chi Wang, Yanfang Ye, Lichao Sun,
- Abstract要約: 既存のオープンソースモジュールを活用してSora機能を複製する,新しいマルチエージェントフレームワークであるMoraを紹介した。
VBench 上での Sora に匹敵する性能をMora が達成していることを示す。
- 参考スコア(独自算出の注目度): 36.602810629788586
- License:
- Abstract: Text-to-video generation has made significant strides, but replicating the capabilities of advanced systems like OpenAI Sora remains challenging due to their closed-source nature. Existing open-source methods struggle to achieve comparable performance, often hindered by ineffective agent collaboration and inadequate training data quality. In this paper, we introduce Mora, a novel multi-agent framework that leverages existing open-source modules to replicate Sora functionalities. We address these fundamental limitations by proposing three key techniques: (1) multi-agent fine-tuning with a self-modulation factor to enhance inter-agent coordination, (2) a data-free training strategy that uses large models to synthesize training data, and (3) a human-in-the-loop mechanism combined with multimodal large language models for data filtering to ensure high-quality training datasets. Our comprehensive experiments on six video generation tasks demonstrate that Mora achieves performance comparable to Sora on VBench, outperforming existing open-source methods across various tasks. Specifically, in the text-to-video generation task, Mora achieved a Video Quality score of 0.800, surpassing Sora 0.797 and outperforming all other baseline models across six key metrics. Additionally, in the image-to-video generation task, Mora achieved a perfect Dynamic Degree score of 1.00, demonstrating exceptional capability in enhancing motion realism and achieving higher Imaging Quality than Sora. These results highlight the potential of collaborative multi-agent systems and human-in-the-loop mechanisms in advancing text-to-video generation. Our code is available at \url{https://github.com/lichao-sun/Mora}.
- Abstract(参考訳): テキストからビデオへの生成は大きな進歩を遂げているが、OpenAI Soraのような高度なシステムの機能を複製することは、そのクローズドソースの性質のため、依然として困難である。
既存のオープンソースメソッドは同等のパフォーマンスを達成するのに苦労している。
本稿では,既存のオープンソースモジュールを活用した新しいマルチエージェントフレームワークであるMoraを紹介する。
本研究では,(1)自己変調因子を用いたマルチエージェント微調整,(2)大規模モデルを用いてトレーニングデータを合成するデータフリーなトレーニング戦略,(3)データフィルタリングのためのマルチモーダルな大規模言語モデルと組み合わせて高品質なトレーニングデータセットを確保する,という3つの基本的手法を提案する。
6つのビデオ生成タスクに関する総合的な実験により、MoraはVBench上のSoraに匹敵するパフォーマンスを達成し、様々なタスクで既存のオープンソースメソッドよりも優れています。
具体的には、テキスト・ビデオ生成タスクにおいて、モラはビデオ品質スコア0.800を達成し、Sora 0.797を超え、6つの主要な指標で他のすべてのベースラインモデルを上回った。
さらに、画像から映像へ生成するタスクにおいて、モラは完全なダイナミックデグレスコア1.00を達成し、運動リアリズムを向上し、ソラよりも高画質の撮像品質を達成するという異常な能力を示した。
これらの結果は、協調型マルチエージェントシステムと、テキスト・ビデオ生成の進歩におけるヒューマン・イン・ザ・ループ機構の可能性を強調している。
私たちのコードは \url{https://github.com/lichao-sun/Mora} で利用可能です。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text
and Image Inputs [53.21307319844615]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。
このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文 参考訳(メタデータ) (2024-03-10T16:09:02Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - PEEKABOO: Interactive Video Generation via Masked-Diffusion [16.27046318032809]
モジュールベースのビデオ生成モデルにビデオ制御を組み込むための第1のソリューションを提案する。
Peekabooは、既存のビデオ生成モデルとシームレスに統合され、追加のトレーニングや推論オーバーヘッドを必要とせずに、コントロールを提供する。
我々の広範囲な質的および定量的評価により、PeekabooはmIoUのベースラインモデルよりも最大3.8倍改善していることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T18:43:05Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。