Fugu-MT 論文翻訳(概要): Vlogger: Make Your Dream A Vlog

論文の概要: Vlogger: Make Your Dream A Vlog

arxiv url: http://arxiv.org/abs/2401.09414v1
Date: Wed, 17 Jan 2024 18:55:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 15:03:19.397566
Title: Vlogger: Make Your Dream A Vlog
Title（参考訳）: Vlogger: 夢をVlogにする
Authors: Shaobin Zhuang, Kunchang Li, Xinyuan Chen, Yaohui Wang, Ziwei Liu, Yu Qiao, Yali Wang
Abstract要約: Vloggerは、ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムである。 Script, (2) Actor, (3) ShowMaker, (4) Voicer など,vlog のプロフェッショナルにとって重要な役割を果たすために,様々な基礎モデルを実行します。 Vloggerは、スクリプトとアクターのビデオコヒーレンスを失うことなく、オープンワールドの説明から5分以上のvlogを生成することができる。
参考スコア（独自算出の注目度）: 67.50445251570173
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we present Vlogger, a generic AI system for generating a minute-level video blog (i.e., vlog) of user descriptions. Different from short videos with a few seconds, vlog often contains a complex storyline with diversified scenes, which is challenging for most existing video generation approaches. To break through this bottleneck, our Vlogger smartly leverages Large Language Model (LLM) as Director and decomposes a long video generation task of vlog into four key stages, where we invoke various foundation models to play the critical roles of vlog professionals, including (1) Script, (2) Actor, (3) ShowMaker, and (4) Voicer. With such a design of mimicking human beings, our Vlogger can generate vlogs through explainable cooperation of top-down planning and bottom-up shooting. Moreover, we introduce a novel video diffusion model, ShowMaker, which serves as a videographer in our Vlogger for generating the video snippet of each shooting scene. By incorporating Script and Actor attentively as textual and visual prompts, it can effectively enhance spatial-temporal coherence in the snippet. Besides, we design a concise mixed training paradigm for ShowMaker, boosting its capacity for both T2V generation and prediction. Finally, the extensive experiments show that our method achieves state-of-the-art performance on zero-shot T2V generation and prediction tasks. More importantly, Vlogger can generate over 5-minute vlogs from open-world descriptions, without loss of video coherence on script and actor. The code and model is all available at https://github.com/zhuangshaobin/Vlogger.
Abstract（参考訳）: 本稿では,ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムであるVloggerを紹介する。数秒の短いビデオとは違って、vlogは様々なシーンを持つ複雑なストーリーラインを含むことが多く、既存のビデオ生成アプローチでは難しい。このボトルネックを克服するために、当社のvloggerは、大規模な言語モデル(llm)をディレクターとして活用し、vlogの長いビデオ生成タスクを4つの重要なステージに分解します。このような人間を模倣する設計により、我々のvloggerはトップダウン計画とボトムアップ撮影の協力によりvlogを生成することができる。さらに,映像拡散モデルであるShowMakerを導入し,撮影シーンの映像スニペットを生成するために,Vloggerでビデオグラファーとして機能する。 ScriptとActorをテキストおよびビジュアルプロンプトとして注意深く組み込むことで、スニペットにおける空間的時間的コヒーレンスを効果的に向上させることができる。さらに、ShowMakerのための簡潔な混合トレーニングパラダイムを設計し、T2V生成と予測の両方の能力を高める。最後に,本手法がゼロショットT2V生成および予測タスクにおける最先端性能を実現することを示す。さらに重要なことに、vloggerは、スクリプトやアクタによるビデオコヒーレンスを失うことなく、オープンワールド記述から5分以上のvlogを生成することができる。コードとモデルは、すべてhttps://github.com/zhuangshaobin/vloggerで入手できる。

関連論文リスト

V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents [14.636244117796965]
ビデオスタイリングのための汎用マルチエージェントシステムであるV-Stylistを導入する。 V-Stylistは、ビデオスタイリスト、スタイルスタイリスト、スタイルアーティストの3つの主要な役割を持つ体系的なワークフローである。例えば、V-Stylist は FRESCO と ControlVideo をそれぞれ 6.05% と 4.51% で上回っている。
論文参考訳（メタデータ） (2025-03-15T10:37:31Z)
Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文参考訳（メタデータ） (2024-06-10T06:17:55Z)
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。 ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文参考訳（メタデータ） (2024-06-06T17:58:54Z)
A Vlogger-augmented Graph Neural Network Model for Micro-video Recommendation [7.54949302096348]
本稿では, vloggers の効果を考慮した vlogger-augmented graph neural network model VA-GNN を提案する。具体的には、ユーザ、マイクロビデオ、vloggerをノードとして三部グラフを構築し、異なるビューからユーザの好みをキャプチャする。次のユーザとビデオのインタラクションを予測する際に、ビデオ自体とvloggerに対するユーザの好みを適応的に組み合わせます。
論文参考訳（メタデータ） (2024-05-28T15:13:29Z)
Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文参考訳（メタデータ） (2024-04-20T13:15:27Z)
Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文参考訳（メタデータ） (2023-12-16T03:17:30Z)
VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文参考訳（メタデータ） (2023-11-30T18:59:52Z)
Dynamic Storyboard Generation in an Engine-based Virtual Environment for Video Production [92.14891282042764]
VDS(Virtual Dynamic Storyboard)を導入し,仮想環境でのストーリーボード撮影を可能にする。形式化されたストーリースクリプトとカメラスクリプトが入力として与えられたら、いくつかのキャラクターアニメーションとカメラムーブメント提案を生成する。候補から高品質なダイナミックなストーリーボードをピックアップするために,プロのマニュアル作成データから学習したショット品質基準に基づいて,ショットランキング判別器を装備する。
論文参考訳（メタデータ） (2023-01-30T06:37:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。