論文の概要: Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2405.17405v2
- Date: Mon, 23 Sep 2024 20:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 02:07:29.270118
- Title: Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer
- Title(参考訳): Human4DiT: 4Dディフュージョントランスを用いた360度ビデオ生成
- Authors: Ruizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu,
- Abstract要約: 1枚の画像から高品質でコヒーレントな人間ビデオを生成するための新しい手法を提案する。
本フレームワークは,グローバル相関を捉える拡散変圧器の強度と,正確な条件注入を行うCNNの強度を組み合わせたものである。
我々は,360度リアルでコヒーレントな人間のモーションビデオを合成する手法の能力を実証した。
- 参考スコア(独自算出の注目度): 38.85054820740242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel approach for generating 360-degree high-quality, spatio-temporally coherent human videos from a single image. Our framework combines the strengths of diffusion transformers for capturing global correlations across viewpoints and time, and CNNs for accurate condition injection. The core is a hierarchical 4D transformer architecture that factorizes self-attention across views, time steps, and spatial dimensions, enabling efficient modeling of the 4D space. Precise conditioning is achieved by injecting human identity, camera parameters, and temporal signals into the respective transformers. To train this model, we collect a multi-dimensional dataset spanning images, videos, multi-view data, and limited 4D footage, along with a tailored multi-dimensional training strategy. Our approach overcomes the limitations of previous methods based on generative adversarial networks or vanilla diffusion models, which struggle with complex motions, viewpoint changes, and generalization. Through extensive experiments, we demonstrate our method's ability to synthesize 360-degree realistic, coherent human motion videos, paving the way for advanced multimedia applications in areas such as virtual reality and animation.
- Abstract(参考訳): 一つの画像から360度高画質・時空間コヒーレントな映像を生成するための新しい手法を提案する。
我々のフレームワークは、視点と時間にまたがる大域的相関を捉える拡散トランスフォーマーの強みと、正確な条件注入のためのCNNを組み合わせる。
コアは階層的な4Dトランスフォーマーアーキテクチャであり、ビュー、時間ステップ、空間次元の自己アテンションを分解し、4D空間の効率的なモデリングを可能にする。
高精度な条件付けは、人間のアイデンティティ、カメラパラメータ、時間信号などを変換器に注入することで実現される。
このモデルをトレーニングするために、画像、ビデオ、多視点データ、限られた4D映像にまたがる多次元データセットと、調整された多次元トレーニング戦略を収集する。
本手法は, 複雑な動き, 視点変化, 一般化に苦しむ, 生成的敵ネットワークやバニラ拡散モデルに基づく従来の手法の限界を克服する。
広範にわたる実験を通じて,VRやアニメーションなどの分野における高度なマルチメディア応用への道を開いた,360度リアルでコヒーレントな人間のモーションビデオの合成能力を実証した。
関連論文リスト
- Bundle Adjusted Gaussian Avatars Deblurring [31.718130377229482]
本研究では,人間の運動に起因するぼかし形成の3次元的物理指向モデルと,運動誘発ぼかし画像に見られる曖昧さを明らかにするための3次元人体運動モデルを提案する。
我々は,360度同期ハイブリッド露光カメラシステムによって取得された実撮データセットとともに,既存のマルチビューキャプチャから合成されたデータセットを用いて,このタスクのベンチマークを確立した。
論文 参考訳(メタデータ) (2024-11-24T10:03:24Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。
3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。
非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z) - Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic
Scenes [69.52540205439989]
グリッドベースの幾何表現と多視点画像に基づく外観表現からなるハイブリッド表現であるIm4Dを紹介する。
画像の特徴から3Dポイントの色を予測することを学習する,オリジナルのマルチビュービデオとネットワークによってシーンの外観を表現する。
我々は,512x512画像に対して,79.8 FPSのリアルタイムレンダリングを実現しつつ,レンダリング品質が向上し,効率よくトレーニングできるIm4Dの最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。