論文の概要: V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents
- arxiv url: http://arxiv.org/abs/2503.12077v1
- Date: Sat, 15 Mar 2025 10:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:12.426103
- Title: V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents
- Title(参考訳): V-スタイリスト:MLLMエージェントの協調と反射によるビデオスティル化
- Authors: Zhengrong Yue, Shaobin Zhuang, Kunchang Li, Yanbo Ding, Yali Wang,
- Abstract要約: ビデオスタイリングのための汎用マルチエージェントシステムであるV-Stylistを導入する。
V-Stylistは、ビデオスタイリスト、スタイルスタイリスト、スタイルアーティストの3つの主要な役割を持つ体系的なワークフローである。
例えば、V-Stylist は FRESCO と ControlVideo をそれぞれ 6.05% と 4.51% で上回っている。
- 参考スコア(独自算出の注目度): 14.636244117796965
- License:
- Abstract: Despite the recent advancement in video stylization, most existing methods struggle to render any video with complex transitions, based on an open style description of user query. To fill this gap, we introduce a generic multi-agent system for video stylization, V-Stylist, by a novel collaboration and reflection paradigm of multi-modal large language models. Specifically, our V-Stylist is a systematical workflow with three key roles: (1) Video Parser decomposes the input video into a number of shots and generates their text prompts of key shot content. Via a concise video-to-shot prompting paradigm, it allows our V-Stylist to effectively handle videos with complex transitions. (2) Style Parser identifies the style in the user query and progressively search the matched style model from a style tree. Via a robust tree-of-thought searching paradigm, it allows our V-Stylist to precisely specify vague style preference in the open user query. (3) Style Artist leverages the matched model to render all the video shots into the required style. Via a novel multi-round self-reflection paradigm, it allows our V-Stylist to adaptively adjust detail control, according to the style requirement. With such a distinct design of mimicking human professionals, our V-Stylist achieves a major breakthrough over the primary challenges for effective and automatic video stylization. Moreover,we further construct a new benchmark Text-driven Video Stylization Benchmark (TVSBench), which fills the gap to assess stylization of complex videos on open user queries. Extensive experiments show that, V-Stylist achieves the state-of-the-art, e.g.,V-Stylist surpasses FRESCO and ControlVideo by 6.05% and 4.51% respectively in overall average metrics, marking a significant advance in video stylization.
- Abstract(参考訳): 最近のビデオスタイリングの進歩にもかかわらず、既存のほとんどの方法は、ユーザークエリのオープンなスタイルの記述に基づいて、複雑な遷移を伴うビデオのレンダリングに苦労している。
このギャップを埋めるために,ビデオスタイリングのための汎用マルチエージェントシステムであるV-Stylistを導入する。
具体的には、V-Stylistは3つの重要な役割を持つ体系的なワークフローである。(1) Video Parserは入力ビデオを複数のショットに分解し、キーショットコンテンツのテキストプロンプトを生成する。
簡潔なビデオ・ツー・ショット・プロンプトのパラダイムによって、V-Stylistは複雑なトランジションでビデオを効果的に扱えるようになります。
2) Style Parserは、ユーザクエリのスタイルを特定し、マッチしたスタイルモデルをスタイルツリーから徐々に検索する。
堅牢なツリー・オブ・シークレット検索パラダイムにより、V-Stylistはオープンなユーザクエリであいまいなスタイルの好みを正確に指定することができます。
(3)Style Artistはマッチしたモデルを利用して、すべてのビデオショットを必要なスタイルにレンダリングする。
新たな多ラウンド自己回帰パラダイムにより、V-Stylistは、スタイル要求に従って細部制御を適応的に調整できる。
私たちのV-Stylistは、人間のプロを真似たデザインなので、ビデオのスタイリングを効果的かつ自動で行うという主な課題に対して、大きなブレークスルーを達成できます。
さらに,テキスト駆動型ビデオスティル化ベンチマーク (TVSBench) を新たに構築し,オープンなユーザクエリ上で複雑なビデオのスタイリゼーションを評価するためのギャップを埋める。
大規模な実験の結果、V-StylistはFRESCOとControlVideoをそれぞれ6.05%と4.51%で上回り、ビデオスタイリングの大幅な進歩を示している。
関連論文リスト
- V-Trans4Style: Visual Transition Recommendation for Video Production Style Adaptation [46.774721054615746]
V-Trans-4Styleは、ドキュメンタリー、ドラマ、フィーチャー映画、特定のYouTubeチャンネルのビデオ制作技術など、さまざまなプロダクションスタイルにビデオを適用するように設計されている。
我々のアルゴリズムは、よりボトムアップなアプローチを用いて、この柔軟性を達成するために最適な視覚遷移を推奨する。
論文 参考訳(メタデータ) (2025-01-14T10:06:02Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。