論文の概要: COMUNI: Decomposing Common and Unique Video Signals for Diffusion-based Video Generation
- arxiv url: http://arxiv.org/abs/2410.01718v1
- Date: Wed, 2 Oct 2024 16:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:53:34.119041
- Title: COMUNI: Decomposing Common and Unique Video Signals for Diffusion-based Video Generation
- Title(参考訳): COMUNI:拡散型ビデオ生成のための共通および特異なビデオ信号の分解
- Authors: Mingzhen Sun, Weining Wang, Xinxin Zhu, Jing Liu,
- Abstract要約: ビデオは連続して動く物体を記録するので、隣接するビデオフレームには共通点(類似物体の外観)と特異点(わずかに変化した姿勢)がある。
我々は,COMmon と UNIque の映像信号を分解して効率的な映像生成を実現する,COMUNI という新しい拡散型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.750940254896614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since videos record objects moving coherently, adjacent video frames have commonness (similar object appearances) and uniqueness (slightly changed postures). To prevent redundant modeling of common video signals, we propose a novel diffusion-based framework, named COMUNI, which decomposes the COMmon and UNIque video signals to enable efficient video generation. Our approach separates the decomposition of video signals from the task of video generation, thus reducing the computation complexity of generative models. In particular, we introduce CU-VAE to decompose video signals and encode them into latent features. To train CU-VAE in a self-supervised manner, we employ a cascading merge module to reconstitute video signals and a time-agnostic video decoder to reconstruct video frames. Then we propose CU-LDM to model latent features for video generation, which adopts two specific diffusion streams to simultaneously model the common and unique latent features. We further utilize additional joint modules for cross modeling of the common and unique latent features, and a novel position embedding method to ensure the content consistency and motion coherence of generated videos. The position embedding method incorporates spatial and temporal absolute position information into the joint modules. Extensive experiments demonstrate the necessity of decomposing common and unique video signals for video generation and the effectiveness and efficiency of our proposed method.
- Abstract(参考訳): ビデオは連続して動く物体を記録するので、隣接するビデオフレームには共通点(類似した物体の外観)と特異点(わずかに変化した姿勢)がある。
共通映像信号の冗長なモデリングを防止するために,COMmon と UNIque の映像信号を分解して効率的な映像生成を実現する,COMUNI という新しい拡散型フレームワークを提案する。
提案手法は,映像信号の分解と映像生成のタスクを分離し,生成モデルの計算複雑性を低減させる。
特に、CU-VAEを導入し、映像信号を分解し、それを潜在機能にエンコードする。
CU-VAEを自己指導的に訓練するために、ビデオ信号の再構成にカスケードマージモジュールと、ビデオフレームの再構成に時間に依存しないビデオデコーダを用いる。
次に,ビデオ生成における遅延特徴をモデル化するためのCU-LDMを提案する。
さらに、共通かつユニークな潜伏特徴のクロスモデリングのための追加のジョイントモジュールと、生成されたビデオのコンテンツ一貫性とモーションコヒーレンスを確保するための新しい位置埋め込み手法を利用する。
位置埋め込み法は、空間的および時間的絶対位置情報を関節モジュールに組み込む。
広汎な実験は、ビデオ生成のための共通およびユニークなビデオ信号の分解の必要性と、提案手法の有効性と効率を実証するものである。
関連論文リスト
- TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2024-10-05T16:30:46Z) - MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation [14.28357169715152]
本稿では,新しい多モード潜在拡散モデル(MM-LDM)を提案する。
まず、音声とビデオデータの表現を、それらを1つか2つの画像に変換することによって統一する。
次に,階層型マルチモーダルオートエンコーダを導入し,各モダリティに対する低レベルの知覚潜在空間と共有高レベルの意味的特徴空間を構築する。
論文 参考訳(メタデータ) (2024-10-02T14:32:24Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by
Using Diffusion Model with ControlNet [26.458417029197957]
本稿では,VideoControlNetと呼ばれる動き誘導型動画翻訳フレームワークを提案する。
時間的冗長性を低減するために動き情報を利用するビデオコーデックにインスパイアされたこのフレームワークは、動き情報を用いて冗長領域の再生を防止する。
実験により,提案したVideoControlNetは,事前学習した大拡散モデルの生成能力を継承することを示した。
論文 参考訳(メタデータ) (2023-07-26T09:50:44Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - Video Joint Modelling Based on Hierarchical Transformer for
Co-summarization [0.0]
ビデオ要約は、ビデオの要約(ストーリーボードまたはビデオスキム)を自動的に生成することを目的としており、大規模なビデオ検索とブラウジングを容易にする。
既存の手法の多くは、類似したビデオ間の相関を無視する個々のビデオに対して、動画要約を行う。
階層変換器(VJMHT)を併用したビデオジョイントモデリングを提案する。
論文 参考訳(メタデータ) (2021-12-27T01:54:35Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。