Deformable Gaussian Occupancy: Decoupling Rigid and Nonrigid Motion with Factorized Distillation
Abstractの概要
本論文は、動的な運転シーンにおける弱教師あり3D占有予測(occupancy prediction)を研究しており、従来の剛体運動ベースのガウシアン手法ではうまく処理できなかった人間中心の非剛体運動に特に注目している。提案するDeGOフレームワークは、変形可能なガウシアン・プリミティブを用いてシーンを表現し、その動きは学習可能な剛性マスクを通じて剛体オフセットと非剛体変形に分離される。また、VGGT基盤モデルからの因数分解された特徴蒸留(factorized feature distillation)を導入し、カメラ間およびフレーム間の情報をガウシアン表現に転移させる。Occ3D-NuScenesベンチマークにおいて、本手法は時間的整合性と動的シーンの理解を向上させつつ、テスト時には単一フレームのフィードフォワード推論を維持する。
新規性
主な新規性は、分離されたガウシアン変形と因数分解された4D基盤モデルの蒸留を、弱教師あり占有フレームワークの中で組み合わせた点にある。特徴的なのはガウシアンごとの剛性マスクであり、これによりモデルは単純な時間的オフセットのみに依存するのではなく、剛体構造と非剛体エージェントを区別して扱うことができる。
成果
Occ3D-NuScenesにおいて、DeGOは45.38 IoU、18.05 mIoU、10.34 instance mIoU、33.46 scene mIoU、11.04 human-centric mIoUを達成し、最先端の弱教師あり結果を示す。モデルは、従来の最良の手法と比較して全体のmIoUで10.9%、人間中心の指標で13.5%の向上を示し、アブレーションにより変形モデリングとVGGTベースの蒸留の両方が性能に大きく寄与していることが確認された。
論文の注目点
- DeGOは、学習可能なガウシアンごとの剛性マスクの下で、オフセットの更新と変形の更新を組み合わせることで、剛体運動と非剛体運動を分離する。
- 本手法は、VGGT基盤モデルから空間的および時間的特徴を蒸留し、カメラ間およびフレーム間のガイダンスを用いて特徴の整合性を改善する。
- Occ3D-NuScenesでの実験により、最先端の弱教師あり占有予測性能が示され、特に人間中心の動的クラスの表現が改善された。