論文の概要: Human Video Generation from a Single Image with 3D Pose and View Control
- arxiv url: http://arxiv.org/abs/2602.21188v1
- Date: Tue, 24 Feb 2026 18:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.885925
- Title: Human Video Generation from a Single Image with 3D Pose and View Control
- Title(参考訳): 3D画像からの映像生成と視点制御
- Authors: Tiantian Wang, Chun-Han Yao, Tao Hu, Mallikarjun Byrasandra Ramalinga Reddy, Ming-Hsuan Yang, Varun Jampani,
- Abstract要約: HVG(Human Video Generation in 4D)は、1つの画像から高画質のマルチビュー、時間的コヒーレントな人間の映像を生成できる潜時ビデオ拡散モデルである。
1)新しい2次元骨地図を通して3次元関節の解剖学的関係を捉え、3次元情報を導入して自己閉塞を解消するArticulated Pose Modulation、(ii)参照画像とフレーム間安定性のためのポーズシーケンス間の多視点一貫性と整合性を保証するView and Temporal Alignment、(iii)
- 参考スコア(独自算出の注目度): 62.676151243249556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent diffusion methods have made significant progress in generating videos from single images due to their powerful visual generation capabilities. However, challenges persist in image-to-video synthesis, particularly in human video generation, where inferring view-consistent, motion-dependent clothing wrinkles from a single image remains a formidable problem. In this paper, we present Human Video Generation in 4D (HVG), a latent video diffusion model capable of generating high-quality, multi-view, spatiotemporally coherent human videos from a single image with 3D pose and view control. HVG achieves this through three key designs: (i) Articulated Pose Modulation, which captures the anatomical relationships of 3D joints via a novel dual-dimensional bone map and resolves self-occlusions across views by introducing 3D information; (ii) View and Temporal Alignment, which ensures multi-view consistency and alignment between a reference image and pose sequences for frame-to-frame stability; and (iii) Progressive Spatio-Temporal Sampling with temporal alignment to maintain smooth transitions in long multi-view animations. Extensive experiments on image-to-video tasks demonstrate that HVG outperforms existing methods in generating high-quality 4D human videos from diverse human images and pose inputs.
- Abstract(参考訳): 近年の拡散法は、その強力な視覚生成能力により、単一の画像から映像を生成することに大きく進歩している。
しかし、映像合成における課題は、特に人間のビデオ生成において、単一の画像から一貫した動きに依存した衣服のしわを推測することは、深刻な問題である。
本稿では,高画質,多視点,時空間的コヒーレントな映像を1枚の画像から生成し,3次元ポーズと視点制御が可能な映像拡散モデルであるHuman Video Generation in 4D(HVG)を提案する。
HVGは3つの重要な設計によってこれを達成します。
一 新たな二次元骨地図により3次元関節の解剖学的関係を捉え、かつ、3次元情報を導入することにより、視界を横断する自己閉塞を解消する人工ポッド変調
二 フレーム間安定性のための参照画像とポーズシーケンスの多視点整合性及び整合性を保証するビュー及びテンポラルアライメント
(3)長期多視点アニメーションにおけるスムーズな遷移を維持するため,時間的アライメントを伴うプログレッシブ・時空間サンプリング。
HVGは、さまざまな人間の画像から高品質な4Dビデオを生成し、入力をポーズする既存の方法よりも優れていることを示す。
関連論文リスト
- View-Consistent Diffusion Representations for 3D-Consistent Video Generation [60.68052293389281]
現在生成されているビデオには、3Dの不整合による視覚的アーティファクトが含まれている。
マルチビューで一貫した拡散表現を学習することで,ビデオモデルの3次元一貫性を改善するための新しいアプローチであるViCoDRを提案する。
論文 参考訳(メタデータ) (2025-11-24T11:16:55Z) - MV-Performer: Taming Video Diffusion Model for Faithful and Synchronized Multi-view Performer Synthesis [34.793258395288895]
モノクロフルボディキャプチャーから新しいビュービデオを作成するための革新的なフレームワークであるMV-Performerを提案する。
360度合成を実現するために、MVHumanNetデータセットを広範囲に活用し、情報伝達条件信号を取り込む。
生成したビデオの同期を維持するために,多視点の人間中心ビデオ拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-10-08T16:24:22Z) - ShapeGen4D: Towards High Quality 4D Shape Generation from Videos [85.45517487721257]
ビデオからエンドツーエンドに1つの動的3次元表現を合成する,ネイティブなビデオから4次元の形状生成フレームワークを提案する。
本手法は,フレームごとの最適化を行なわずに,非剛性運動,体積変化,および位相遷移を正確にキャプチャする。
論文 参考訳(メタデータ) (2025-10-07T17:58:11Z) - Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [83.76517697509156]
本稿では、疎視映像を入力として高忠実度視点合成の課題に対処する。
本研究では, 4次元拡散モデルの視時整合性を高めるために, 反復的スライディング・デノナイジング法を提案する。
提案手法は,高品質で一貫したノベルビュー映像を合成し,既存の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-17T17:59:17Z) - SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation [0.0]
1枚の画像から得られる高品質のアニマタブルな3Dアバターは、コンピュータビジョンにおいて重要な課題である。
既存の手法の相補的強みを活用することによって,これらの制約に対処する新しいアプローチSVADを提案する。
本手法は,映像拡散により合成トレーニングデータを生成し,画像保存モジュールと画像復元モジュールを併用し,改良したデータを用いて3DGSアバターを訓練する。
論文 参考訳(メタデータ) (2025-05-08T17:59:58Z) - MVD-HuGaS: Human Gaussians from a Single Image via 3D Human Multi-view Diffusion Prior [35.704591162502375]
EmphMVD-HuGaSは,複数視点の人体拡散モデルを用いて,単一の画像から自由視点の3Dレンダリングを可能にする。
T Human2.0と2K2Kデータセットの実験により、提案されたMVD-HuGaSは、単一ビューの3Dレンダリングで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-03-11T09:37:15Z) - Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。
3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。
非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - 3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。
神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-29T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。