論文の概要: Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
- arxiv url: http://arxiv.org/abs/2509.10687v1
- Date: Fri, 12 Sep 2025 20:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.729453
- Title: Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
- Title(参考訳): 安定部分拡散4D:マルチビューRGBとキネマティック部品のビデオ生成
- Authors: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani,
- Abstract要約: 単眼入力からRGBとキネマティックなビデオを生成するためのフレームワークであるStable Part Diffusion 4D(SP4D)を提案する。
外観に基づくセマンティックキューに依存する従来の部分分割法とは異なり、SP4Dはキネマティックな部分を生成することを学ぶ。
- 参考スコア(独自算出の注目度): 48.87022820000206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Stable Part Diffusion 4D (SP4D), a framework for generating paired RGB and kinematic part videos from monocular inputs. Unlike conventional part segmentation methods that rely on appearance-based semantic cues, SP4D learns to produce kinematic parts - structural components aligned with object articulation and consistent across views and time. SP4D adopts a dual-branch diffusion model that jointly synthesizes RGB frames and corresponding part segmentation maps. To simplify the architecture and flexibly enable different part counts, we introduce a spatial color encoding scheme that maps part masks to continuous RGB-like images. This encoding allows the segmentation branch to share the latent VAE from the RGB branch, while enabling part segmentation to be recovered via straightforward post-processing. A Bidirectional Diffusion Fusion (BiDiFuse) module enhances cross-branch consistency, supported by a contrastive part consistency loss to promote spatial and temporal alignment of part predictions. We demonstrate that the generated 2D part maps can be lifted to 3D to derive skeletal structures and harmonic skinning weights with few manual adjustments. To train and evaluate SP4D, we construct KinematicParts20K, a curated dataset of over 20K rigged objects selected and processed from Objaverse XL (Deitke et al., 2023), each paired with multi-view RGB and part video sequences. Experiments show that SP4D generalizes strongly to diverse scenarios, including real-world videos, novel generated objects, and rare articulated poses, producing kinematic-aware outputs suitable for downstream animation and motion-related tasks.
- Abstract(参考訳): 単眼入力からRGBとキネマティックなビデオを生成するためのフレームワークであるStable Part Diffusion 4D(SP4D)を提案する。
外観に基づくセマンティックキューに依存する従来の部分セグメンテーション法とは異なり、SP4Dは、オブジェクトの調律に整合した構造部品や、ビューや時間にわたって一貫した構造部品を生成することを学ぶ。
SP4Dは、RGBフレームと対応する部分分割マップを共同で合成するデュアルブランチ拡散モデルを採用している。
アーキテクチャを簡素化し,異なる部分数を柔軟に実現するために,部分マスクを連続RGBライクな画像にマッピングする空間色符号化方式を提案する。
このエンコーディングにより、セグメント化ブランチはRGBブランチから潜在VAEを共有でき、パーシャルセグメンテーションは簡単な後処理で回収できる。
Bidirect Diffusion Fusion (BiDiFuse) モジュールは、部分予測の空間的および時間的アライメントを促進するために、対照的な部分整合損失によって支えられるクロスブランチ整合性を高める。
生成した2次元部分マップを3次元に引き上げることで,手動による調整をほとんど行わずに骨格構造と高調波スキンウェイトを導出できることを実証した。
SP4Dをトレーニングし評価するために,Objaverse XL (Deitke et al , 2023) から選択・処理された20K以上のリガッドオブジェクトのキュレートされたデータセットであるKinematic Parts20Kを構築した。
実験により、SP4Dは現実世界のビデオ、新しい生成物、希少な調音ポーズなど多様なシナリオに強く一般化し、下流のアニメーションやモーション関連のタスクに適したキネマティック・アウェア・アウトプットを生成することが示された。
関連論文リスト
- 4DVD: Cascaded Dense-view Video Diffusion Model for High-quality 4D Content Generation [23.361360623083943]
分離された方法で4Dコンテンツを生成するビデオ拡散モデルである4DVDを提案する。
4DVDをトレーニングするために、ベンチマークからD-averseと呼ばれる動的3Dデータセットを収集します。
新規なビュー合成と4次元生成の両面での最先端性能を実証する実験を行った。
論文 参考訳(メタデータ) (2025-08-06T14:08:36Z) - PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers [29.52313100024294]
1枚のRGB画像から複数の意味論的および幾何学的に異なる3Dメッシュを共同で合成する最初の構造化3D生成モデルであるPartCrafterを紹介する。
PartCrafterは同時に複数の3Dパーツを識別し、個々のオブジェクトと複雑な複数オブジェクトのシーンの両方をエンドツーエンドで生成する。
実験によると、PartCrafterは分解可能な3Dメッシュの生成において、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2025-06-05T20:30:28Z) - In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [54.62824686338408]
最小限の入力設定からSplatingにおける生成4D(すなわち3D + Motion)のための新しい問題In-between2-4Dを提案する。
動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
論文 参考訳(メタデータ) (2025-04-11T09:01:09Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - Semantic Dense Reconstruction with Consistent Scene Segments [33.0310121044956]
RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。
まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
論文 参考訳(メタデータ) (2021-09-30T03:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。