論文の概要: VACE: All-in-One Video Creation and Editing
- arxiv url: http://arxiv.org/abs/2503.07598v2
- Date: Tue, 11 Mar 2025 06:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:05.350084
- Title: VACE: All-in-One Video Creation and Editing
- Title(参考訳): VACE:オールインワンのビデオ作成と編集
- Authors: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu,
- Abstract要約: VACEにより、ユーザーは作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できる。
VACEを導入し、ユーザが作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できるようにする。
- 参考スコア(独自算出の注目度): 18.809248697934397
- License:
- Abstract: Diffusion Transformer has demonstrated powerful capability and scalability in generating high-quality images and videos. Further pursuing the unification of generation and editing tasks has yielded significant progress in the domain of image content creation. However, due to the intrinsic demands for consistency across both temporal and spatial dynamics, achieving a unified approach for video synthesis remains challenging. We introduce VACE, which enables users to perform Video tasks within an All-in-one framework for Creation and Editing. These tasks include reference-to-video generation, video-to-video editing, and masked video-to-video editing. Specifically, we effectively integrate the requirements of various tasks by organizing video task inputs, such as editing, reference, and masking, into a unified interface referred to as the Video Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we inject different task concepts into the model using formalized representations of temporal and spatial dimensions, allowing it to handle arbitrary video synthesis tasks flexibly. Extensive experiments demonstrate that the unified model of VACE achieves performance on par with task-specific models across various subtasks. Simultaneously, it enables diverse applications through versatile task combinations. Project page: https://ali-vilab.github.io/VACE-Page/.
- Abstract(参考訳): Diffusion Transformerは、高品質な画像やビデオを生成するための強力な能力とスケーラビリティを示している。
生成タスクと編集タスクの統合をさらに追求することは、画像コンテンツ作成の領域において大きな進歩をもたらした。
しかし、時間的・空間的ダイナミクスの整合性に対する本質的な要求のため、ビデオ合成のための統一的なアプローチを実現することは依然として困難である。
VACEを導入し、ユーザが作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できるようにする。
これらのタスクには、レファレンス・トゥ・ビデオ生成、ビデオ・トゥ・ビデオ編集、マスキングされたビデオ・トゥ・ビデオ編集が含まれる。
具体的には、ビデオコンディションユニット(VCU)と呼ばれる統一インターフェースに編集、参照、マスキングなどのビデオタスク入力を整理することにより、様々なタスクの要求を効果的に統合する。
さらに,コンテキストアダプタ構造を利用することで,時間次元と空間次元の形式化された表現を用いて異なるタスク概念をモデルに注入し,任意のビデオ合成タスクを柔軟に処理する。
広範囲な実験により、VACEの統一モデルは、様々なサブタスクにまたがるタスク固有モデルと同等の性能を達成することが示された。
同時に、多目的タスクの組み合わせを通じて多様なアプリケーションを可能にする。
プロジェクトページ: https://ali-vilab.github.io/VACE-Page/。
関連論文リスト
- UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics [74.10447111842504]
UniRealは、様々な画像生成および編集タスクに対処するために設計された統一されたフレームワークである。
近年の映像生成モデルに着想を得て,画像レベルのタスクを不連続な映像生成として扱う統一的手法を提案する。
画像レベルのタスク用に設計されているが、ユニバーサルな監視のためのスケーラブルなソースとしてビデオを活用している。
論文 参考訳(メタデータ) (2024-12-10T18:59:55Z) - SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。
SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。
実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文 参考訳(メタデータ) (2024-11-28T08:07:32Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - Streaming Video Model [90.24390609039335]
本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。
S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
論文 参考訳(メタデータ) (2023-03-30T08:51:49Z) - PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers
using Synthetic Scene Data [85.48684148629634]
本稿では,映像理解を改善するために合成シーンデータを活用する手法を提案する。
本稿では,ビデオトランスのためのマルチタスク・プロンプト学習手法を提案する。
複数のビデオ理解タスクやデータセットに対して,高いパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-12-08T18:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。