論文の概要: Vlogger: Make Your Dream A Vlog
- arxiv url: http://arxiv.org/abs/2401.09414v1
- Date: Wed, 17 Jan 2024 18:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:03:19.397566
- Title: Vlogger: Make Your Dream A Vlog
- Title(参考訳): Vlogger: 夢をVlogにする
- Authors: Shaobin Zhuang, Kunchang Li, Xinyuan Chen, Yaohui Wang, Ziwei Liu, Yu
Qiao, Yali Wang
- Abstract要約: Vloggerは、ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムである。
Script, (2) Actor, (3) ShowMaker, (4) Voicer など,vlog のプロフェッショナルにとって重要な役割を果たすために,様々な基礎モデルを実行します。
Vloggerは、スクリプトとアクターのビデオコヒーレンスを失うことなく、オープンワールドの説明から5分以上のvlogを生成することができる。
- 参考スコア(独自算出の注目度): 67.50445251570173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present Vlogger, a generic AI system for generating a
minute-level video blog (i.e., vlog) of user descriptions. Different from short
videos with a few seconds, vlog often contains a complex storyline with
diversified scenes, which is challenging for most existing video generation
approaches. To break through this bottleneck, our Vlogger smartly leverages
Large Language Model (LLM) as Director and decomposes a long video generation
task of vlog into four key stages, where we invoke various foundation models to
play the critical roles of vlog professionals, including (1) Script, (2) Actor,
(3) ShowMaker, and (4) Voicer. With such a design of mimicking human beings,
our Vlogger can generate vlogs through explainable cooperation of top-down
planning and bottom-up shooting. Moreover, we introduce a novel video diffusion
model, ShowMaker, which serves as a videographer in our Vlogger for generating
the video snippet of each shooting scene. By incorporating Script and Actor
attentively as textual and visual prompts, it can effectively enhance
spatial-temporal coherence in the snippet. Besides, we design a concise mixed
training paradigm for ShowMaker, boosting its capacity for both T2V generation
and prediction. Finally, the extensive experiments show that our method
achieves state-of-the-art performance on zero-shot T2V generation and
prediction tasks. More importantly, Vlogger can generate over 5-minute vlogs
from open-world descriptions, without loss of video coherence on script and
actor. The code and model is all available at
https://github.com/zhuangshaobin/Vlogger.
- Abstract(参考訳): 本稿では,ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムであるVloggerを紹介する。
数秒の短いビデオとは違って、vlogは様々なシーンを持つ複雑なストーリーラインを含むことが多く、既存のビデオ生成アプローチでは難しい。
このボトルネックを克服するために、当社のvloggerは、大規模な言語モデル(llm)をディレクターとして活用し、vlogの長いビデオ生成タスクを4つの重要なステージに分解します。
このような人間を模倣する設計により、我々のvloggerはトップダウン計画とボトムアップ撮影の協力によりvlogを生成することができる。
さらに,映像拡散モデルであるShowMakerを導入し,撮影シーンの映像スニペットを生成するために,Vloggerでビデオグラファーとして機能する。
ScriptとActorをテキストおよびビジュアルプロンプトとして注意深く組み込むことで、スニペットにおける空間的時間的コヒーレンスを効果的に向上させることができる。
さらに、ShowMakerのための簡潔な混合トレーニングパラダイムを設計し、T2V生成と予測の両方の能力を高める。
最後に,本手法がゼロショットT2V生成および予測タスクにおける最先端性能を実現することを示す。
さらに重要なことに、vloggerは、スクリプトやアクタによるビデオコヒーレンスを失うことなく、オープンワールド記述から5分以上のvlogを生成することができる。
コードとモデルは、すべてhttps://github.com/zhuangshaobin/vloggerで入手できる。
関連論文リスト
- VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM [97.09631253302987]
本稿では,コンテンツ一貫性のあるマルチシーンビデオ生成のための新しいフレームワークであるVideoDrafterを提案する。
VideoDrafterはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoDrafterは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-02T15:56:48Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Dynamic Storyboard Generation in an Engine-based Virtual Environment for
Video Production [92.14891282042764]
VDS(Virtual Dynamic Storyboard)を導入し,仮想環境でのストーリーボード撮影を可能にする。
形式化されたストーリースクリプトとカメラスクリプトが入力として与えられたら、いくつかのキャラクターアニメーションとカメラムーブメント提案を生成する。
候補から高品質なダイナミックなストーリーボードをピックアップするために,プロのマニュアル作成データから学習したショット品質基準に基づいて,ショットランキング判別器を装備する。
論文 参考訳(メタデータ) (2023-01-30T06:37:35Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Developers Who Vlog: Dismantling Stereotypes through Community and
Identity [18.33130097682978]
われわれは、YouTubeのvlogsを通じて、開発者が自分の人生の1日をどう記述するかを学ぶために、3つの研究を行った。
我々は、このコンテンツを作成する動機を特定するためにvloggした16の開発者にインタビューした。
我々は130のvlog(ビデオブログ)を分析し、ビデオを通して配信されるコンテンツの範囲を分析した。
論文 参考訳(メタデータ) (2021-09-13T20:26:41Z) - Iterative Text-based Editing of Talking-heads Using Neural Retargeting [42.964779538134714]
本稿では,反復的な編集ワークフローを実現する対話ヘッドビデオの編集を行うテキストベースのツールを提案する。
各イテレーションでは、ユーザーは音声の単語を編集し、アーティファクトを減らし、パフォーマンスの非言語的な側面を操作するために必要な口の動きをさらに洗練することができる。
我々のツールは、ターゲットのアクタービデオの2~3分しか必要とせず、各イテレーションのビデオを約40秒で合成する。
論文 参考訳(メタデータ) (2020-11-21T01:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。