論文の概要: Interspatial Attention for Efficient 4D Human Video Generation
- arxiv url: http://arxiv.org/abs/2505.15800v1
- Date: Wed, 21 May 2025 17:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.81722
- Title: Interspatial Attention for Efficient 4D Human Video Generation
- Title(参考訳): 効率的な4次元映像生成のための空間的注意
- Authors: Ruizhi Shao, Yinghao Xu, Yujun Shen, Ceyuan Yang, Yang Zheng, Changan Chen, Yebin Liu, Gordon Wetzstein,
- Abstract要約: 本稿では,現代的なビデオ生成モデルのための拡張性のあるビルディングブロックとして,新しい空間間アテンション(ISA)機構を導入する。
ISAは人間のビデオの生成に適した相対的な位置エンコーディングを利用する新しいタイプのクロスアテンションである。
本モデルは,4次元映像合成における最先端性能を実現し,動作の一貫性とアイデンティティの保存性を実証する。
- 参考スコア(独自算出の注目度): 98.36274427702915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating photorealistic videos of digital humans in a controllable manner is crucial for a plethora of applications. Existing approaches either build on methods that employ template-based 3D representations or emerging video generation models but suffer from poor quality or limited consistency and identity preservation when generating individual or multiple digital humans. In this paper, we introduce a new interspatial attention (ISA) mechanism as a scalable building block for modern diffusion transformer (DiT)--based video generation models. ISA is a new type of cross attention that uses relative positional encodings tailored for the generation of human videos. Leveraging a custom-developed video variation autoencoder, we train a latent ISA-based diffusion model on a large corpus of video data. Our model achieves state-of-the-art performance for 4D human video synthesis, demonstrating remarkable motion consistency and identity preservation while providing precise control of the camera and body poses. Our code and model are publicly released at https://dsaurus.github.io/isa4d/.
- Abstract(参考訳): デジタル人間の光リアルな映像を制御可能な方法で生成することは、多くのアプリケーションにとって不可欠である。
既存のアプローチは、テンプレートベースの3D表現や、新しいビデオ生成モデルを採用する方法の上に構築されているが、個々のデジタル人間や複数のデジタル人間を生成する際に、品質が低下したり、一貫性が制限されたり、アイデンティティの保存に悩まされている。
本稿では,現代拡散トランスフォーマ(DiT)に基づくビデオ生成モデルのためのスケーラブルなビルディングブロックとして,新しい空間間アテンション(ISA)機構を導入する。
ISAは人間のビデオの生成に適した相対的な位置エンコーディングを利用する新しいタイプのクロスアテンションである。
独自開発したビデオ変分オートエンコーダを用いて,ビデオデータの大規模なコーパス上で,遅延ISAベースの拡散モデルを訓練する。
本モデルは,4次元映像合成における最先端性能を実現し,カメラと身体のポーズを精密に制御しながら,顕著な動きの一貫性とアイデンティティの保存を実証する。
私たちのコードとモデルはhttps://dsaurus.github.io/isa4d/で公開されています。
関連論文リスト
- SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:59:43Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer [38.85054820740242]
1枚の画像から高品質でコヒーレントな人間ビデオを生成するための新しい手法を提案する。
本フレームワークは,グローバル相関を捉える拡散変圧器の強度と,正確な条件注入を行うCNNの強度を組み合わせたものである。
我々は,360度リアルでコヒーレントな人間のモーションビデオを合成する手法の能力を実証した。
論文 参考訳(メタデータ) (2024-05-27T17:53:29Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。