FuguReport

SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

著者 Haosong Peng, Hao Li, Jiaqi Chen, Yuhao Pan, Runmao Yao, Yalun Dai, Fushuo Huo, Fangzhou Hong, Zhaoxi Chen, Haozhao Wang, Dingwen Zhang, Ziwei Liu, Wenchao Xu
所属 Northwestern Polytechnical University / Nanyang Technological University / Southeast University / The Hong Kong University of Science and Technology / Huazhong University of Science and Technology
カテゴリ Evaluation / Domain Adaptation Evaluation / Cross-paradigm spatial model testing, Evaluation / Benchmarking / Multi-task spatial benchmark, Method / Data Quality Assessment / Impact of domain alignment on performance
ライセンス CC BY 4.0

Abstractの概要

SpatialBenchは、決定論的なサンプリングプロトコルに基づき、パラダイム、ドメイン、タスク、入力密度の全体にわたって空間基盤モデルを評価するための再現可能なベンチマークです。このベンチマークは、5つの空間ドメインにわたる19のデータセットと546のシーンを集約し、4つの入力密度レジーム下で5つのタスクスイートについて、6つのパラダイムからなる41のモデルバリアントを評価します。単眼、スパースビュー、中程度のオーバーラップ、密な長シーケンス入力などの設定間でモデルを公平に比較し、ドメインシフトやハードウェアに関連する制約に対する堅牢性を明らかにすることを目的としています。この広範な評価を通じて、著者らは現在の空間基盤モデルがまだ信頼できる汎用性の高いモデルではなく、特に身体的視点でのドメインシフトや長期間の制約下において課題があると結論付けています。さらに、観察された最大のデータギャップの1つを調査するため、一人称視点および手首視点の設定に焦点を当てたDA-Next-5MデータセットとDA-Nextベースラインも導入しています。

新規性

本論文の主な新規性は、空間基盤モデルに対してシーンのドメイン、タスクタイプ、決定論的な入力密度を統合的に変化させる標準化されたクロスパラダイムベンチマークを提供し、統一されたプロトコルの下で6つのモデルファミリー間の直接比較を可能にした点です。また、ベンチマークにとどまらず、特定の分布外ギャップの調査を行うために、ドメインに特化したベースラインモデルとともに、一人称視点および手首視点の大規模データセットDA-Next-5Mを導入しています。

成果

評価の結果、メモリが利用可能な場合はフルコンテキストのフィードフォワードモデルが精度の上限を定める一方で、メモリ制限のあるアプローチは長いシーケンスに対してスケーラブルであるものの、一般的にジオメトリの精度を犠牲にすることが分かりました。また、単に学習データ量を増やすよりもデータ品質と厳密なドメインの整合性が重要であり、一人称視点および手首視点のドメインが最も顕著な分布外の失敗モードとして現れることが示されました。これらの身体的視点の設定において、DA-Nextはスパースおよび中程度の入力における深度AbsRelでDA3-Giantをそれぞれ47%および59%上回り、姿勢AUC@30を3.1%および5.5%向上させており、インドメインのターゲットデータをキュレーションする価値を実証しています。

論文の注目点

  1. SpatialBenchは、19のデータセット、546のシーン、5つのタスクスイート、および4つの決定論的な入力密度レジームにわたって、6つの空間モデルパラダイムからなる41のモデルバリアントを評価している。
  2. ベンチマーク分析により、フルコンテキストのアテンションが制限された入力において最高の精度をもたらす一方で、ストリーミング、チャンク処理、SLAM、テスト時学習手法は限られたメモリ下での長シーケンス処理により適しているという明確なトレードオフが示された。
  3. 最も深刻な汎化の課題は一人称視点および手首視点のドメインで発生するが、提案されたDA-Next-5MデータセットとDA-Nextベースラインは、ターゲットを絞ったインドメインデータがこのギャップを大幅に縮小できることを実証している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。