Syn4D: A Multiview Synthetic 4D Dataset
Abstractの概要
Syn4Dは、動的シーンの理解・再構成・追跡を目的とした大規模合成マルチビュー4Dデータセットである。Unreal Engineでレンダリングされた4,700本のマルチビュー動画クリップと140万フレームを含み、カメラモーション、深度、ポイントマップ、密な2D/3Dトラッキング、インスタンスセグメンテーション、キャプション、パラメトリック人体ポーズ(SMPL-X)などのアノテーションを備えている。特徴的な点として、任意のピクセルを時間およびカメラ間でその3D位置にマッピングでき、任意の点に対する密なマルチビュートラッキングが可能である。本論文では、密なトラックを格納するための効率的な重心座標マップベースの表現を導入し、幾何認識型新視点合成、4D再構成、3Dトラッキング、動画深度推定、人体ポーズ推定においてデータセットを評価している。
新規性
本論文の主な新規性は、一般的な動的シーンに対する密かつ完全な3Dトラッキングアノテーションを備えた公開マルチビュー合成4Dデータセットであり、著者らはこの設定において初めてのものであると述べている。第二の特徴的な貢献は、ピクセル整合重心座標とアニメーションメッシュシーケンスに基づく効率的な動的ポイントマップ表現であり、ストレージ複雑度をO(HWT³C²)からO(HWTC + VT)に削減し、密なトラックの保存とクエリを実用的にしている。
成果
幾何認識型新視点合成において、Syn4Dでの学習は著者らのベンチマーク上でKubricで学習した対照モデルと比較して視覚品質指標(CLIP-V: 0.740 vs. 0.643、FVD: 452 vs. 631)および幾何指標を改善した。4RCとSyn4Dの共同学習により、3Dトラッキング(例:密なAPDが79.07から88.79に向上)、マルチビュー再構成、動画深度推定が標準ベンチマーク全体で改善された。MA-HMRのSyn4Dによるファインチューニングでは、Hi4D、CHI3D、3DPWにおいてSyn4Dなしの継続学習と比較して一貫した但し控えめな改善が得られた。
論文の注目点
- Syn4Dは、1,674のアニメーション付きObjaverseアセットと585のBedlam2人体を30のUnreal Engine環境に配置し、カメラパラメータ、深度、ポイントマップ、密な2D/3Dトラッキング、インスタンスセグメンテーション、SMPL-Xベースの人体ポーズアノテーションを含む密な幾何監視付きの4,700本のマルチビュー動的動画クリップ(140万フレーム)を提供する。
- 中核的な技術的貢献は、ピクセルごとの重心座標マップとアニメーションメッシュ頂点シーケンスを用いた密な動的ポイントトラックの効率的な表現であり、ストレージを実現不可能なO(HWT³C²)から実用的なO(HWTC + VT)に削減している。
- Syn4Dとの共同学習により最先端モデルが一貫して改善される:4RCは3Dトラッキング、動画深度推定、カメラポーズ推定、マルチビュー再構成で向上し、MA-HMRはアーキテクチャ変更なしに人体ポーズ推定ベンチマークで控えめな改善を達成している。