FuguReport

Syn4D: A Multiview Synthetic 4D Dataset

著者 Zeren Jiang, Yushi Lan, Yihang Luo, Yufan Deng, Zihang Lai, Edgar Sucar, Christian Rupprecht, Iro Laina, Diane Larlus, Chuanxia Zheng, Andrea Vedaldi
所属 University of Oxford / NAVER / Nanyang Technological University
カテゴリ Task / 3D Reconstruction / Dynamic scene reconstruction, Task / Tracking / 3D tracking of dynamic scenes, Application / Multiview Dataset / Synthetic multiview dynamic scene dataset
ライセンス CC BY 4.0

Abstractの概要

Syn4Dは、動的シーンの理解・再構成・追跡を目的とした大規模合成マルチビュー4Dデータセットである。Unreal Engineでレンダリングされた4,700本のマルチビュー動画クリップと140万フレームを含み、カメラモーション、深度、ポイントマップ、密な2D/3Dトラッキング、インスタンスセグメンテーション、キャプション、パラメトリック人体ポーズ(SMPL-X)などのアノテーションを備えている。特徴的な点として、任意のピクセルを時間およびカメラ間でその3D位置にマッピングでき、任意の点に対する密なマルチビュートラッキングが可能である。本論文では、密なトラックを格納するための効率的な重心座標マップベースの表現を導入し、幾何認識型新視点合成、4D再構成、3Dトラッキング、動画深度推定、人体ポーズ推定においてデータセットを評価している。

新規性

本論文の主な新規性は、一般的な動的シーンに対する密かつ完全な3Dトラッキングアノテーションを備えた公開マルチビュー合成4Dデータセットであり、著者らはこの設定において初めてのものであると述べている。第二の特徴的な貢献は、ピクセル整合重心座標とアニメーションメッシュシーケンスに基づく効率的な動的ポイントマップ表現であり、ストレージ複雑度をO(HWT³C²)からO(HWTC + VT)に削減し、密なトラックの保存とクエリを実用的にしている。

成果

幾何認識型新視点合成において、Syn4Dでの学習は著者らのベンチマーク上でKubricで学習した対照モデルと比較して視覚品質指標(CLIP-V: 0.740 vs. 0.643、FVD: 452 vs. 631)および幾何指標を改善した。4RCとSyn4Dの共同学習により、3Dトラッキング(例:密なAPDが79.07から88.79に向上)、マルチビュー再構成、動画深度推定が標準ベンチマーク全体で改善された。MA-HMRのSyn4Dによるファインチューニングでは、Hi4D、CHI3D、3DPWにおいてSyn4Dなしの継続学習と比較して一貫した但し控えめな改善が得られた。

論文の注目点

  1. Syn4Dは、1,674のアニメーション付きObjaverseアセットと585のBedlam2人体を30のUnreal Engine環境に配置し、カメラパラメータ、深度、ポイントマップ、密な2D/3Dトラッキング、インスタンスセグメンテーション、SMPL-Xベースの人体ポーズアノテーションを含む密な幾何監視付きの4,700本のマルチビュー動的動画クリップ(140万フレーム)を提供する。
  2. 中核的な技術的貢献は、ピクセルごとの重心座標マップとアニメーションメッシュ頂点シーケンスを用いた密な動的ポイントトラックの効率的な表現であり、ストレージを実現不可能なO(HWT³C²)から実用的なO(HWTC + VT)に削減している。
  3. Syn4Dとの共同学習により最先端モデルが一貫して改善される:4RCは3Dトラッキング、動画深度推定、カメラポーズ推定、マルチビュー再構成で向上し、MA-HMRはアーキテクチャ変更なしに人体ポーズ推定ベンチマークで控えめな改善を達成している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。