論文の概要: VIMI: Grounding Video Generation through Multi-modal Instruction
- arxiv url: http://arxiv.org/abs/2407.06304v1
- Date: Mon, 8 Jul 2024 18:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 22:13:05.970761
- Title: VIMI: Grounding Video Generation through Multi-modal Instruction
- Title(参考訳): VIMI:マルチモーダルインストラクションによるグラウンド映像生成
- Authors: Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov,
- Abstract要約: 既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
- 参考スコア(独自算出の注目度): 89.90065445082442
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing text-to-video diffusion models rely solely on text-only encoders for their pretraining. This limitation stems from the absence of large-scale multimodal prompt video datasets, resulting in a lack of visual grounding and restricting their versatility and application in multimodal integration. To address this, we construct a large-scale multimodal prompt dataset by employing retrieval methods to pair in-context examples with the given text prompts and then utilize a two-stage training strategy to enable diverse video generation tasks within the same model. In the first stage, we propose a multimodal conditional video generation framework for pretraining on these augmented datasets, establishing a foundational model for grounded video generation. Secondly, we finetune the model from the first stage on three video generation tasks, incorporating multi-modal instructions. This process further refines the model's ability to handle diverse inputs and tasks, ensuring seamless integration of multi-modal information. After this two-stage train-ing process, VIMI demonstrates multimodal understanding capabilities, producing contextually rich and personalized videos grounded in the provided inputs, as shown in Figure 1. Compared to previous visual grounded video generation methods, VIMI can synthesize consistent and temporally coherent videos with large motion while retaining the semantic control. Lastly, VIMI also achieves state-of-the-art text-to-video generation results on UCF101 benchmark.
- Abstract(参考訳): 既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
この制限は、大規模なマルチモーダルプロンプトビデオデータセットが存在しないことに起因する。
そこで本研究では,テキストプロンプトとコンテキスト内例をペアリングする検索手法を用いて,大規模マルチモーダルプロンプトデータセットを構築し,その上で2段階のトレーニング戦略を用いて,同一モデル内の多様なビデオ生成タスクを実現する。
最初の段階では、これらの拡張データセットを事前訓練するためのマルチモーダル条件付きビデオ生成フレームワークを提案し、グラウンドドビデオ生成の基礎モデルを確立する。
第2に、マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて、第1ステージからモデルを微調整する。
このプロセスは、多様な入力やタスクを扱うモデルの能力をさらに改善し、マルチモーダル情報のシームレスな統合を保証する。
この2段階のトレーディングプロセスの後、VIMIはマルチモーダル理解機能を示し、図1に示すように、提供されたインプットに基づいてコンテキスト的にリッチでパーソナライズされたビデオを生成する。
従来のビジュアルグラウンドドビデオ生成手法と比較して、VIMIはセマンティックコントロールを維持しながら、一貫した時間的コヒーレントな動画を大きな動きで合成することができる。
最後に、VIMIはUCF101ベンチマークで最先端のテキスト・ビデオ生成結果も達成している。
関連論文リスト
- Everything is a Video: Unifying Modalities through Next-Frame Prediction [5.720266474212221]
自然言語処理(NLP)を超えて,タスク再構成の概念を多モーダル学習に拡張する新しいフレームワークを提案する。
本稿では,多様なマルチモーダルタスクを統一した次フレーム予測問題に再構成することを提案する。
提案手法は,テキスト・トゥ・テキスト,画像・トゥ・テキスト,ビデオ・トゥ・ビデオ,ビデオ・トゥ・テキスト,音声・トゥ・テキストなど,様々なタスクで評価される。
論文 参考訳(メタデータ) (2024-11-15T12:59:37Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation [100.23111948079037]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。
具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文 参考訳(メタデータ) (2023-11-25T04:05:59Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。