FunRec: Reconstructing Functional 3D Scenes from Egocentric Interaction Videos
Abstractの概要
FunRecは、単一のエゴセントリックRGB-Dインタラクション動画から、室内シーンの機能的な3Dデジタルツインを再構築する、学習不要の最適化ベースシステムである。本手法は、動画を静的フラグメントと動的フラグメントに分割し、関節部品を発見し、その運動学的パラメータ(回転関節または直動関節)およびフレームごとのポーズを推定し、TSDF融合を用いて静的ジオメトリと可動部品の両方を正準空間で再構築する。幾何学的推論と、インタラクション検出のための動画言語モデル、疎な3D軌跡のためのポイントトラッカー、密な部品セグメンテーションのためのSAM2を含む基盤モデルからの意味的・運動的事前知識を統合している。また本論文では、機能的シーン再構築を評価するための2つの新しいエゴセントリックインタラクションデータセット—RealFun4D(60のアパートにわたる351本の実インタラクション動画)とOmniFun4D(12のOmniGibsonシーンにおける127本のフォトリアリスティックなシミュレーションシーケンス)—を導入している。
新規性
主な貢献は、制御されたマルチステートキャプチャ、CAD事前知識、事前スキャンされたオブジェクトモデル、またはいかなる学習も必要とせずに、実環境のエゴセントリックインタラクション動画からシーンスケールの関節付き再構築を実現した点にある。また、現実的な人間とシーンのインタラクションからの機能的3Dシーン再構築の評価に特化して設計された2つの新しいベンチマーク(RealFun4DおよびOmniFun4D)も導入している。
成果
OmniFun4D、HOI4D、RealFun4Dにおいて、FunRecは関節運動推定、可動部品セグメンテーション(mIoUがそれぞれ77.9、76.4、74.8で、次点の23.6〜26.8を大幅に上回る)、6D部品ポーズ推定(ADD-S最大79.43%/ADD 69.85%で、BundleSDFの2倍以上の改善)、および再構築品質(Chamfer Distanceがそれぞれ3.2cm、0.7cm、6.1cm)において、比較手法の中で最高性能を達成した。さらに、物理シミュレータへのURDF/USDエクスポート、手誘導によるアフォーダンスマッピング、人間のデモンストレーションからのロボット・シーンインタラクションへの応用も実証されている。
論文の注目点
- FunRecは、基盤モデルの事前知識を活用した学習不要の最適化パイプラインにより、単一のエゴセントリックRGB-Dインタラクション動画からカメラ運動、部品運動、関節パラメータ(回転関節および直動関節)、ジオメトリを同時推定し、関節付き室内シーンを再構築する。
- 著者らは、機能的3Dシーン再構築の評価のために、RealFun4D(4カ国60のアパートにわたる351本の実インタラクション動画)とOmniFun4D(12のOmniGibsonシーンにおける127本のフォトリアリスティックなシミュレーションシーケンス)の2つの新しいデータセットを導入した。
- 実験では、部品セグメンテーションにおけるmIoU 50以上の向上や、関節・ポーズ誤差の5〜10倍の低減など、従来のベースラインに対する大幅な改善が示され、URDF/USDエクスポート、アフォーダンスマッピング、ロボットインタラクションで実証されたシミュレーション互換のシーン表現が生成された。