OpenGaFF: Open-Vocabulary Gaussian Feature Field with Codebook Attention
Abstractの概要
OpenGaFFは、3D Gaussian Splattingに基づくオープンボキャブラリー3Dシーン理解フレームワークであり、ビュー間での断片的かつ空間的に不整合なセマンティック予測の問題に対処する。その中核コンポーネントはGaussian Feature Field(MLPベースのデコーダ)であり、Gaussianの位置と外観に条件付けされた低次元セマンティック特徴を予測し、各Gaussianに独立した特徴を割り当てるのではなく、幾何学とセマンティクスを明示的に結合する。本手法は、CLIP特徴のk-meansクラスタリングから初期化されたデータ駆動型の構造化言語コードブックと、高次元言語特徴を取得しつつオブジェクト内の特徴分散を低減するコードブックガイド付きアテンション機構を導入する。さらに、セマンティックレンダリングを改善しコードブックの分離的使用を促進するための個別のセマンティックオパシティとエントロピー正則化が含まれる。LERF-OVSおよびScanNet-v2において、2Dおよび3Dのオープンボキャブラリーセグメンテーションとローカリゼーションの評価実験が行われた。
新規性
本論文の主な新規性は、幾何学を考慮したGaussian Feature Field(Gaussianの位置と外観に条件付けされたMLP)と、データ駆動型の構造化コードブックおよびアテンションベースの言語検索を組み合わせた、オープンボキャブラリー3D理解手法にある。Gaussian毎のセマンティック特徴を学習する従来手法や固定/ランダム初期化コードブックを使用する手法とは異なり、OpenGaFFはセマンティクスを幾何学と外観に条件付けし、クラスタリングされたCLIP特徴からコードブックを初期化するとともに、シーンの複雑さに適応するためにサイズを自動決定する。
成果
LERF-OVSにおいて、本手法は比較ベースライン中で最良の平均2Dオープンボキャブラリーセグメンテーション(64.98 mIoU)および3Dセグメンテーション(54.36 mIoU)を達成し、3Dローカリゼーション精度も高い(80.84%)。ScanNet-v2では、19/15/10クラス設定で36.55/42.78/57.85 mIoUのトップ結果を報告し、15クラス(72.85%)および10クラス(77.93%)設定では大幅に高い平均精度を示した。また、コードブックベースのベースラインであるGALA(200分、14GB)やLangSplatV2(45分、24GB)と比較して、良好な学習効率(15分、12GB)を実証した。
論文の注目点
- OpenGaFFは、Gaussianの位置と外観に条件付けされたMLPベースのGaussian Feature Fieldを介してセマンティクスをモデル化し、Gaussian毎の特徴学習と比較して幾何学-セマンティクスの結合と空間的整合性を強化する。
- 本手法は、CLIP特徴のk-meansクラスタリングから初期化されサイズが自動決定される構造化言語コードブックと、一貫したオープンボキャブラリー推論を支援するアテンションベースの検索を組み合わせて使用する。
- 実験により、LERF-OVSおよびScanNet-v2における最先端の2D/3Dセグメンテーション性能が示され、アブレーションにより各コンポーネント(Feature Field、構造化コードブック、アテンションモジュール、個別セマンティックオパシティ)が性能と解釈可能性の向上に寄与することが確認された。