論文の概要: Vlogger: Make Your Dream A Vlog
- arxiv url: http://arxiv.org/abs/2401.09414v1
- Date: Wed, 17 Jan 2024 18:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:03:19.397566
- Title: Vlogger: Make Your Dream A Vlog
- Title(参考訳): Vlogger: 夢をVlogにする
- Authors: Shaobin Zhuang, Kunchang Li, Xinyuan Chen, Yaohui Wang, Ziwei Liu, Yu
Qiao, Yali Wang
- Abstract要約: Vloggerは、ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムである。
Script, (2) Actor, (3) ShowMaker, (4) Voicer など,vlog のプロフェッショナルにとって重要な役割を果たすために,様々な基礎モデルを実行します。
Vloggerは、スクリプトとアクターのビデオコヒーレンスを失うことなく、オープンワールドの説明から5分以上のvlogを生成することができる。
- 参考スコア(独自算出の注目度): 67.50445251570173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present Vlogger, a generic AI system for generating a
minute-level video blog (i.e., vlog) of user descriptions. Different from short
videos with a few seconds, vlog often contains a complex storyline with
diversified scenes, which is challenging for most existing video generation
approaches. To break through this bottleneck, our Vlogger smartly leverages
Large Language Model (LLM) as Director and decomposes a long video generation
task of vlog into four key stages, where we invoke various foundation models to
play the critical roles of vlog professionals, including (1) Script, (2) Actor,
(3) ShowMaker, and (4) Voicer. With such a design of mimicking human beings,
our Vlogger can generate vlogs through explainable cooperation of top-down
planning and bottom-up shooting. Moreover, we introduce a novel video diffusion
model, ShowMaker, which serves as a videographer in our Vlogger for generating
the video snippet of each shooting scene. By incorporating Script and Actor
attentively as textual and visual prompts, it can effectively enhance
spatial-temporal coherence in the snippet. Besides, we design a concise mixed
training paradigm for ShowMaker, boosting its capacity for both T2V generation
and prediction. Finally, the extensive experiments show that our method
achieves state-of-the-art performance on zero-shot T2V generation and
prediction tasks. More importantly, Vlogger can generate over 5-minute vlogs
from open-world descriptions, without loss of video coherence on script and
actor. The code and model is all available at
https://github.com/zhuangshaobin/Vlogger.
- Abstract(参考訳): 本稿では,ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムであるVloggerを紹介する。
数秒の短いビデオとは違って、vlogは様々なシーンを持つ複雑なストーリーラインを含むことが多く、既存のビデオ生成アプローチでは難しい。
このボトルネックを克服するために、当社のvloggerは、大規模な言語モデル(llm)をディレクターとして活用し、vlogの長いビデオ生成タスクを4つの重要なステージに分解します。
このような人間を模倣する設計により、我々のvloggerはトップダウン計画とボトムアップ撮影の協力によりvlogを生成することができる。
さらに,映像拡散モデルであるShowMakerを導入し,撮影シーンの映像スニペットを生成するために,Vloggerでビデオグラファーとして機能する。
ScriptとActorをテキストおよびビジュアルプロンプトとして注意深く組み込むことで、スニペットにおける空間的時間的コヒーレンスを効果的に向上させることができる。
さらに、ShowMakerのための簡潔な混合トレーニングパラダイムを設計し、T2V生成と予測の両方の能力を高める。
最後に,本手法がゼロショットT2V生成および予測タスクにおける最先端性能を実現することを示す。
さらに重要なことに、vloggerは、スクリプトやアクタによるビデオコヒーレンスを失うことなく、オープンワールド記述から5分以上のvlogを生成することができる。
コードとモデルは、すべてhttps://github.com/zhuangshaobin/vloggerで入手できる。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - A Vlogger-augmented Graph Neural Network Model for Micro-video Recommendation [7.54949302096348]
本稿では, vloggers の効果を考慮した vlogger-augmented graph neural network model VA-GNN を提案する。
具体的には、ユーザ、マイクロビデオ、vloggerをノードとして三部グラフを構築し、異なるビューからユーザの好みをキャプチャする。
次のユーザとビデオのインタラクションを予測する際に、ビデオ自体とvloggerに対するユーザの好みを適応的に組み合わせます。
論文 参考訳(メタデータ) (2024-05-28T15:13:29Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Dynamic Storyboard Generation in an Engine-based Virtual Environment for
Video Production [92.14891282042764]
VDS(Virtual Dynamic Storyboard)を導入し,仮想環境でのストーリーボード撮影を可能にする。
形式化されたストーリースクリプトとカメラスクリプトが入力として与えられたら、いくつかのキャラクターアニメーションとカメラムーブメント提案を生成する。
候補から高品質なダイナミックなストーリーボードをピックアップするために,プロのマニュアル作成データから学習したショット品質基準に基づいて,ショットランキング判別器を装備する。
論文 参考訳(メタデータ) (2023-01-30T06:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。