Fugu-MT 論文翻訳(概要): Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

論文の概要: Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

arxiv url: http://arxiv.org/abs/2405.17405v1
Date: Mon, 27 May 2024 17:53:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 14:04:26.436685
Title: Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer
Title（参考訳）: Human4DiT:4Dディフュージョントランスを用いたフリービューヒューマンビデオ生成
Authors: Ruizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu,
Abstract要約: 本稿では,1枚の画像から高画質の時間的コヒーレントな人間ビデオを生成するための新しい手法を提案する。本フレームワークは, 正確な条件注入と変圧器拡散のためのU-Netの強度を組み合わせたものである。我々は,現実的,一貫性のある,自由視点の人間の映像を合成する手法の能力を実証する。
参考スコア（独自算出の注目度）: 38.85054820740242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel approach for generating high-quality, spatio-temporally coherent human videos from a single image under arbitrary viewpoints. Our framework combines the strengths of U-Nets for accurate condition injection and diffusion transformers for capturing global correlations across viewpoints and time. The core is a cascaded 4D transformer architecture that factorizes attention across views, time, and spatial dimensions, enabling efficient modeling of the 4D space. Precise conditioning is achieved by injecting human identity, camera parameters, and temporal signals into the respective transformers. To train this model, we curate a multi-dimensional dataset spanning images, videos, multi-view data and 3D/4D scans, along with a multi-dimensional training strategy. Our approach overcomes the limitations of previous methods based on GAN or UNet-based diffusion models, which struggle with complex motions and viewpoint changes. Through extensive experiments, we demonstrate our method's ability to synthesize realistic, coherent and free-view human videos, paving the way for advanced multimedia applications in areas such as virtual reality and animation. Our project website is https://human4dit.github.io.
Abstract（参考訳）: 任意の視点で1つの画像から高画質の時空間コヒーレントな人間ビデオを生成するための新しい手法を提案する。我々のフレームワークは、正確な条件注入のためのU-Netの強みと、視点と時間にまたがる大域的相関を捉える拡散変換器を組み合わせたものである。コアは、4D空間の効率的なモデリングを可能にするため、ビュー、時間、空間次元に注意を向けるカスケード型4Dトランスフォーマーアーキテクチャである。高精度な条件付けは、人間のアイデンティティ、カメラパラメータ、時間信号などを変換器に注入することで実現される。このモデルをトレーニングするために、画像、ビデオ、多視点データ、および3D/4Dスキャンにまたがる多次元データセットを多次元トレーニング戦略とともにキュレートする。提案手法は,複雑な動きや視点の変化に苦しむGANやUNetに基づく拡散モデルに基づく従来の手法の限界を克服する。広範にわたる実験を通じて,現実的で一貫性のある自由視点映像を合成し,バーチャルリアリティやアニメーションなどの分野における先進的マルチメディアアプリケーションへの道を開いた。プロジェクトのWebサイトはhttps://human4dit.github.ioです。

関連論文リスト

Human Video Generation from a Single Image with 3D Pose and View Control [62.676151243249556]
HVG(Human Video Generation in 4D)は、1つの画像から高画質のマルチビュー、時間的コヒーレントな人間の映像を生成できる潜時ビデオ拡散モデルである。 1)新しい2次元骨地図を通して3次元関節の解剖学的関係を捉え、3次元情報を導入して自己閉塞を解消するArticulated Pose Modulation、(ii)参照画像とフレーム間安定性のためのポーズシーケンス間の多視点一貫性と整合性を保証するView and Temporal Alignment、(iii)
論文参考訳（メタデータ） (2026-02-24T18:42:20Z)
VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [83.92729346325163]
VerseCrafterは、4D対応のビデオワールドモデルであり、カメラとオブジェクトのダイナミクスの両方を明示的で一貫性のある制御を可能にする。当社のアプローチは,静的な背景点雲を通じて世界状態をエンコードする,新しい4次元幾何制御表現を中心にしている。これらの4D制御は、事前訓練されたビデオ拡散モデルのための条件付け信号にレンダリングされ、高忠実でビュー一貫性のあるビデオを生成することができる。
論文参考訳（メタデータ） (2026-01-08T17:28:52Z)
SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis [47.61773799705708]
同期多視点HOIビデオと4Dモーションを共同生成する最初のモデルであるSyncMV4Dを紹介する。本手法は,視覚リアリズム,運動可視性,多視点整合性において,最先端の代替手段よりも優れた性能を示す。
論文参考訳（メタデータ） (2025-11-24T17:14:19Z)
Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文参考訳（メタデータ） (2025-11-01T11:16:25Z)
Streaming 4D Visual Geometry Transformer [63.99937807085461]
入力シーケンスをオンラインで処理するストリーミング4Dビジュアルジオメトリ変換器を提案する。時間的因果的注意を用いて、履歴キーと値を暗黙記憶としてキャッシュし、より効率的な長期4D再構成を可能にする。各種4次元幾何知覚ベンチマーク実験により,オンラインシナリオにおける推論速度の向上が示された。
論文参考訳（メタデータ） (2025-07-15T17:59:57Z)
Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文参考訳（メタデータ） (2025-07-01T18:01:41Z)
Interspatial Attention for Efficient 4D Human Video Generation [98.36274427702915]
本稿では,現代的なビデオ生成モデルのための拡張性のあるビルディングブロックとして,新しい空間間アテンション(ISA)機構を導入する。 ISAは人間のビデオの生成に適した相対的な位置エンコーディングを利用する新しいタイプのクロスアテンションである。本モデルは,4次元映像合成における最先端性能を実現し,動作の一貫性とアイデンティティの保存性を実証する。
論文参考訳（メタデータ） (2025-05-21T17:53:47Z)
FaceCraft4D: Animated 3D Facial Avatar Generation from a Single Image [41.598551483524666]
1枚の画像から高品質でアニマタブルな4Dアバターを生成するための新しいフレームワークを提案する。本手法は,様々な視点や表現の整合性を維持しつつ,先行技術よりも優れた品質を実現する。
論文参考訳（メタデータ） (2025-04-21T15:40:14Z)
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model [52.0192865857058]
そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文参考訳（メタデータ） (2025-03-28T17:14:48Z)
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文参考訳（メタデータ） (2025-03-26T17:59:44Z)
Bundle Adjusted Gaussian Avatars Deblurring [31.718130377229482]
本研究では,人間の運動に起因するぼかし形成の3次元的物理指向モデルと,運動誘発ぼかし画像に見られる曖昧さを明らかにするための3次元人体運動モデルを提案する。我々は,360度同期ハイブリッド露光カメラシステムによって取得された実撮データセットとともに,既存のマルチビューキャプチャから合成されたデータセットを用いて,このタスクのベンチマークを確立した。
論文参考訳（メタデータ） (2024-11-24T10:03:24Z)
MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文参考訳（メタデータ） (2024-06-03T17:59:57Z)
4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文参考訳（メタデータ） (2024-05-31T08:18:39Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。我々の手法は、品質と効率の両面で既存の手法を超越している。動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文参考訳（メタデータ） (2024-04-04T18:05:18Z)
Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。 3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文参考訳（メタデータ） (2024-04-02T17:58:03Z)
TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文参考訳（メタデータ） (2024-03-26T17:55:11Z)
Consistent4D: Consistent 360{\deg} Dynamic Object Generation from Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文参考訳（メタデータ） (2023-11-06T03:26:43Z)
Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic Scenes [69.52540205439989]
グリッドベースの幾何表現と多視点画像に基づく外観表現からなるハイブリッド表現であるIm4Dを紹介する。画像の特徴から3Dポイントの色を予測することを学習する,オリジナルのマルチビュービデオとネットワークによってシーンの外観を表現する。我々は,512x512画像に対して,79.8 FPSのリアルタイムレンダリングを実現しつつ,レンダリング品質が向上し,効率よくトレーニングできるIm4Dの最先端性能を示す。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。