論文の概要: OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding
- arxiv url: http://arxiv.org/abs/2504.10825v1
- Date: Tue, 15 Apr 2025 03:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:04.999822
- Title: OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding
- Title(参考訳): OmniVDiff: 生成と理解のためのOmni制御可能なビデオ拡散
- Authors: Dianbing Xi, Jiepeng Wang, Yuanzhi Liang, Xi Qiu, Yuchi Huo, Rui Wang, Chi Zhang, Xuelong Li,
- Abstract要約: 単一拡散モデルを用いて複数の映像コンテンツを合成し,理解することを目的とした,制御可能なビデオ拡散のための新しいフレームワークOmniVDiffを提案する。
我々のモデルは,テキスト条件付きビデオ生成,ビデオ理解,X条件付きビデオ生成という3つの重要な機能をサポートしている。
これらの多様なタスクを統合ビデオ拡散フレームワークに統合することにより、OmniVDiffは制御可能なビデオ拡散の柔軟性とスケーラビリティを向上させる。
- 参考スコア(独自算出の注目度): 48.39161756773205
- License:
- Abstract: In this paper, we propose a novel framework for controllable video diffusion, OmniVDiff, aiming to synthesize and comprehend multiple video visual content in a single diffusion model. To achieve this, OmniVDiff treats all video visual modalities in the color space to learn a joint distribution, while employing an adaptive control strategy that dynamically adjusts the role of each visual modality during the diffusion process, either as a generation modality or a conditioning modality. This allows flexible manipulation of each modality's role, enabling support for a wide range of tasks. Consequently, our model supports three key functionalities: (1) Text-conditioned video generation: multi-modal visual video sequences (i.e., rgb, depth, canny, segmentaion) are generated based on the text conditions in one diffusion process; (2) Video understanding: OmniVDiff can estimate the depth, canny map, and semantic segmentation across the input rgb frames while ensuring coherence with the rgb input; and (3) X-conditioned video generation: OmniVDiff generates videos conditioned on fine-grained attributes (e.g., depth maps or segmentation maps). By integrating these diverse tasks into a unified video diffusion framework, OmniVDiff enhances the flexibility and scalability for controllable video diffusion, making it an effective tool for a variety of downstream applications, such as video-to-video translation. Extensive experiments demonstrate the effectiveness of our approach, highlighting its potential for various video-related applications.
- Abstract(参考訳): 本稿では,単一拡散モデルを用いて複数の映像コンテンツを合成し,理解することを目的とした,制御可能なビデオ拡散のための新しいフレームワークOmniVDiffを提案する。
これを実現するために、OmniVDiffは、色空間内のすべての視覚的モダリティを処理して共同分布を学習し、拡散過程における各視覚的モダリティの役割を、生成モダリティまたは条件付モダリティとして動的に調整する適応制御戦略を用いる。
これにより、各モダリティの役割を柔軟に操作することができ、幅広いタスクをサポートすることができる。
その結果, テキスト条件付きビデオ生成: マルチモーダル映像シーケンス (rgb, depth, canny, segmentaion) は1つの拡散過程におけるテキスト条件に基づいて生成され, 2) 映像理解: OmniVDiff は、rgb入力とのコヒーレンスを確保しつつ、入力rgbフレーム間の深さ, cannymap, セマンティックセグメンテーションを推定し、(3) X条件付きビデオ生成: OmniVDiff は、細粒度属性(例えば、深度マップやセグメンテーションマップ)に基づいて条件付きビデオを生成する。
これらの多様なタスクを統合ビデオ拡散フレームワークに統合することにより、OmniVDiffは制御可能なビデオ拡散の柔軟性とスケーラビリティを高め、ビデオからビデオへの変換など、さまざまな下流アプリケーションに有効なツールとなる。
広範にわたる実験により,本手法の有効性が示され,様々なビデオ関連応用の可能性が示された。
関連論文リスト
- BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文 参考訳(メタデータ) (2025-01-13T19:17:06Z) - Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。
我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文 参考訳(メタデータ) (2024-12-05T18:53:04Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation [14.28357169715152]
本稿では,新しい多モード潜在拡散モデル(MM-LDM)を提案する。
まず、音声とビデオデータの表現を、それらを1つか2つの画像に変換することによって統一する。
次に,階層型マルチモーダルオートエンコーダを導入し,各モダリティに対する低レベルの知覚潜在空間と共有高レベルの意味的特徴空間を構築する。
論文 参考訳(メタデータ) (2024-10-02T14:32:24Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。