論文の概要: IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation
- arxiv url: http://arxiv.org/abs/2407.10937v1
- Date: Mon, 15 Jul 2024 17:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:00:49.029806
- Title: IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation
- Title(参考訳): IDOL: 統合型デュアルモード潜時拡散法
- Authors: Yuanhao Zhai, Kevin Lin, Linjie Li, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, David Doermann, Junsong Yuan, Zicheng Liu, Lijuan Wang,
- Abstract要約: 高品質な人中心型ビデオ深度生成のためのIDOL(unIfied Dual-mOdal Latent diffusion)を提案する。
我々のIDOLは2つの新しい設計で構成されている。第一に、デュアルモーダル生成を可能にし、ビデオと深度生成の間の情報交換を最大化する。
次に,映像と深度特徴運動場との整合性を実現する動きの整合性損失を提案する。
- 参考スコア(独自算出の注目度): 136.5813547244979
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Significant advances have been made in human-centric video generation, yet the joint video-depth generation problem remains underexplored. Most existing monocular depth estimation methods may not generalize well to synthesized images or videos, and multi-view-based methods have difficulty controlling the human appearance and motion. In this work, we present IDOL (unIfied Dual-mOdal Latent diffusion) for high-quality human-centric joint video-depth generation. Our IDOL consists of two novel designs. First, to enable dual-modal generation and maximize the information exchange between video and depth generation, we propose a unified dual-modal U-Net, a parameter-sharing framework for joint video and depth denoising, wherein a modality label guides the denoising target, and cross-modal attention enables the mutual information flow. Second, to ensure a precise video-depth spatial alignment, we propose a motion consistency loss that enforces consistency between the video and depth feature motion fields, leading to harmonized outputs. Additionally, a cross-attention map consistency loss is applied to align the cross-attention map of the video denoising with that of the depth denoising, further facilitating spatial alignment. Extensive experiments on the TikTok and NTU120 datasets show our superior performance, significantly surpassing existing methods in terms of video FVD and depth accuracy.
- Abstract(参考訳): 人間中心のビデオ生成において重要な進歩があったが、共同ビデオ深度生成の問題はまだ未解決のままである。
既存の単眼深度推定法は、合成画像やビデオにはあまり当てはまらないが、多視点法では人間の外見や動きの制御が困難である。
本研究では,高品質な人中心関節ビデオ深度生成のためのIDOL(unIfied Dual-mOdal Latent diffusion)を提案する。
IDOLは2つの新しいデザインで構成されています。
まず,映像と深度生成の間の情報交換を最大化するために,映像と深度生成のパラメータ共有フレームワークであるデュアルモーダルU-Netを提案する。
第2に,映像深度空間アライメントの精度を確保するため,映像と深度特徴運動場の整合性を強制する動きの整合性損失を提案し,高調波出力を実現する。
さらに、映像のクロスアテンションマップを奥行きデノージングのクロスアテンションマップと整列させ、空間アライメントをさらに容易にする。
TikTokとNTU120データセットの大規模な実験は、ビデオFVDと深度精度の点で既存の手法を大幅に上回る、優れたパフォーマンスを示している。
関連論文リスト
- Dual-Hybrid Attention Network for Specular Highlight Removal [34.99543751199565]
画像やビデオの品質と解釈性を高めるため、マルチメディアアプリケーションにおいて特異ハイライト除去は重要な役割を担っている。
現在の最先端のアプローチは、しばしば追加の事前や監督に依存し、実用性と一般化能力を制限する。
本稿では、新しいハイブリッドアテンション機構を導入するエンドツーエンドネットワークであるDHAN-SHR(Dual-Hybrid Attention Network for Specular Highlightectomy)を提案する。
論文 参考訳(メタデータ) (2024-07-17T01:52:41Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization [85.85582751254785]
この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
論文 参考訳(メタデータ) (2024-01-16T09:33:29Z) - DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and
View-Change Human-Centric Video Editing [48.086102360155856]
本稿では,革新的映像表現として動的ニューラルラジアンス場(NeRF)を紹介する。
本稿では,一貫した編集が可能な画像ベースビデオNeRF編集パイプラインを提案する。
我々の手法はDynVideo-Eと呼ばれ、2つの挑戦的データセットに対するSOTAのアプローチを、人間の好みに対して50%の差で大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-16T17:48:10Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Dual-view Snapshot Compressive Imaging via Optical Flow Aided Recurrent
Neural Network [14.796204921975733]
デュアルビュースナップショット圧縮イメージング(SCI)は、2つの視野(FoV)からのビデオを1つのスナップショットでキャプチャすることを目的としている。
既存のモデルベースの復号アルゴリズムでは個々のシーンを再構築することは困難である。
本稿では,2重ビデオSCIシステムのための光フロー支援型リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-11T14:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。