論文の概要: Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
- arxiv url: http://arxiv.org/abs/2509.10687v2
- Date: Tue, 04 Nov 2025 23:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 16:07:39.876829
- Title: Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
- Title(参考訳): 安定部分拡散4D:マルチビューRGBとキネマティック部品のビデオ生成
- Authors: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani,
- Abstract要約: 単眼入力からRGBとキネマティックなビデオを生成するためのフレームワークであるStable Part Diffusion 4D(SP4D)を提案する。
外観に基づくセマンティックキューに依存する従来の部分分割法とは異なり、SP4Dはキネマティックな部分を生成することを学ぶ。
- 参考スコア(独自算出の注目度): 48.87022820000206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Stable Part Diffusion 4D (SP4D), a framework for generating paired RGB and kinematic part videos from monocular inputs. Unlike conventional part segmentation methods that rely on appearance-based semantic cues, SP4D learns to produce kinematic parts - structural components aligned with object articulation and consistent across views and time. SP4D adopts a dual-branch diffusion model that jointly synthesizes RGB frames and corresponding part segmentation maps. To simplify the architecture and flexibly enable different part counts, we introduce a spatial color encoding scheme that maps part masks to continuous RGB-like images. This encoding allows the segmentation branch to share the latent VAE from the RGB branch, while enabling part segmentation to be recovered via straightforward post-processing. A Bidirectional Diffusion Fusion (BiDiFuse) module enhances cross-branch consistency, supported by a contrastive part consistency loss to promote spatial and temporal alignment of part predictions. We demonstrate that the generated 2D part maps can be lifted to 3D to derive skeletal structures and harmonic skinning weights with few manual adjustments. To train and evaluate SP4D, we construct KinematicParts20K, a curated dataset of over 20K rigged objects selected and processed from Objaverse XL (Deitke et al., 2023), each paired with multi-view RGB and part video sequences. Experiments show that SP4D generalizes strongly to diverse scenarios, including real-world videos, novel generated objects, and rare articulated poses, producing kinematic-aware outputs suitable for downstream animation and motion-related tasks.
- Abstract(参考訳): 単眼入力からRGBとキネマティックなビデオを生成するためのフレームワークであるStable Part Diffusion 4D(SP4D)を提案する。
外観に基づくセマンティックキューに依存する従来の部分セグメンテーション法とは異なり、SP4Dは、オブジェクトの調律に整合した構造部品や、ビューや時間にわたって一貫した構造部品を生成することを学ぶ。
SP4Dは、RGBフレームと対応する部分分割マップを共同で合成するデュアルブランチ拡散モデルを採用している。
アーキテクチャを簡素化し,異なる部分数を柔軟に実現するために,部分マスクを連続RGBライクな画像にマッピングする空間色符号化方式を提案する。
このエンコーディングにより、セグメント化ブランチはRGBブランチから潜在VAEを共有でき、パーシャルセグメンテーションは簡単な後処理で回収できる。
Bidirect Diffusion Fusion (BiDiFuse) モジュールは、部分予測の空間的および時間的アライメントを促進するために、対照的な部分整合損失によって支えられるクロスブランチ整合性を高める。
生成した2次元部分マップを3次元に引き上げることで,手動による調整をほとんど行わずに骨格構造と高調波スキンウェイトを導出できることを実証した。
SP4Dをトレーニングし評価するために,Objaverse XL (Deitke et al , 2023) から選択・処理された20K以上のリガッドオブジェクトのキュレートされたデータセットであるKinematic Parts20Kを構築した。
実験により、SP4Dは現実世界のビデオ、新しい生成物、希少な調音ポーズなど多様なシナリオに強く一般化し、下流のアニメーションやモーション関連のタスクに適したキネマティック・アウェア・アウトプットを生成することが示された。
関連論文リスト
- 4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere [77.83037497484366]
単眼ビデオからの4次元再構成のための統合フィードフォワードフレームワークである4RCを提案する。
4RCは、密集したシーン形状と動きのダイナミクスを共同でキャプチャする総体的な4D表現を学習する。
論文 参考訳(メタデータ) (2026-02-10T18:57:04Z) - Split4D: Decomposed 4D Scene Reconstruction Without Video Segmentation [76.21162972133534]
我々は、Freetime FeatureGSで分解された4Dシーンを表現する。
画像ごとのセグメンテーションマップから正確に復元するためのストリーミング機能学習戦略を設計する。
いくつかのデータセットに対する実験結果から,提案手法の再現性は近年の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2025-12-28T02:37:12Z) - SyncTrack4D: Cross-Video Motion Alignment and Video Synchronization for Multi-Video 4D Gaussian Splatting [50.69165364520998]
実世界の非同期ビデオ集合を扱うために, マルチビデオ4Dガウススプラッティング (4DGS) 方式を提案する。
SyncTrack4Dは、4DGSの同時同期と4DGS再構成のためのキューとして動的シーンの高密度な4Dトラック表現を直接活用する。
我々はPanoptic Studio と SyncNeRF Blender に対するアプローチを評価し,0.26 フレーム以下の平均時間誤差でサブフレーム同期精度を示し,高忠実度 4D 再構成は26.3 PSNR スコアに達した。
論文 参考訳(メタデータ) (2025-12-03T23:05:01Z) - Dynamic-eDiTor: Training-Free Text-Driven 4D Scene Editing with Multimodal Diffusion Transformer [21.55368174087611]
我々は,Multimodal Diffusion Transformer(MM-DiT)と4DGSを活用した,トレーニング不要のテキスト駆動4D編集フレームワークであるDynamic-eDiTorを紹介する。
提案手法は,複数ビューと時間的一貫性の両面において,より優れた編集精度を実現する。
論文 参考訳(メタデータ) (2025-11-30T00:18:46Z) - One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control [15.085082024859142]
One4Dは4D生成と再構築のための統一されたフレームワークである。
動的4Dコンテンツを同期RGBフレームとポイントマップとして生成する。
One4Dは、控えめな計算予算の下で、合成された4Dデータセットと実際の4Dデータセットの混合に基づいて訓練される。
論文 参考訳(メタデータ) (2025-11-24T09:31:23Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - 4DVD: Cascaded Dense-view Video Diffusion Model for High-quality 4D Content Generation [23.361360623083943]
分離された方法で4Dコンテンツを生成するビデオ拡散モデルである4DVDを提案する。
4DVDをトレーニングするために、ベンチマークからD-averseと呼ばれる動的3Dデータセットを収集します。
新規なビュー合成と4次元生成の両面での最先端性能を実証する実験を行った。
論文 参考訳(メタデータ) (2025-08-06T14:08:36Z) - PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers [29.52313100024294]
1枚のRGB画像から複数の意味論的および幾何学的に異なる3Dメッシュを共同で合成する最初の構造化3D生成モデルであるPartCrafterを紹介する。
PartCrafterは同時に複数の3Dパーツを識別し、個々のオブジェクトと複雑な複数オブジェクトのシーンの両方をエンドツーエンドで生成する。
実験によると、PartCrafterは分解可能な3Dメッシュの生成において、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2025-06-05T20:30:28Z) - In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [54.62824686338408]
最小限の入力設定からSplatingにおける生成4D(すなわち3D + Motion)のための新しい問題In-between2-4Dを提案する。
動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
論文 参考訳(メタデータ) (2025-04-11T09:01:09Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - Semantic Dense Reconstruction with Consistent Scene Segments [33.0310121044956]
RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。
まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
論文 参考訳(メタデータ) (2021-09-30T03:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。