SpatialBench: Is Your Spatial Foundation Model an All-Round Player?
Abstractの概要
SpatialBenchは、決定論的なサンプリングプロトコルに基づき、パラダイム、ドメイン、タスク、入力密度の全体にわたって空間基盤モデルを評価するための再現可能なベンチマークです。このベンチマークは、5つの空間ドメインにわたる19のデータセットと546のシーンを集約し、4つの入力密度レジーム下で5つのタスクスイートについて、6つのパラダイムからなる41のモデルバリアントを評価します。単眼、スパースビュー、中程度のオーバーラップ、密な長シーケンス入力などの設定間でモデルを公平に比較し、ドメインシフトやハードウェアに関連する制約に対する堅牢性を明らかにすることを目的としています。この広範な評価を通じて、著者らは現在の空間基盤モデルがまだ信頼できる汎用性の高いモデルではなく、特に身体的視点でのドメインシフトや長期間の制約下において課題があると結論付けています。さらに、観察された最大のデータギャップの1つを調査するため、一人称視点および手首視点の設定に焦点を当てたDA-Next-5MデータセットとDA-Nextベースラインも導入しています。
新規性
本論文の主な新規性は、空間基盤モデルに対してシーンのドメイン、タスクタイプ、決定論的な入力密度を統合的に変化させる標準化されたクロスパラダイムベンチマークを提供し、統一されたプロトコルの下で6つのモデルファミリー間の直接比較を可能にした点です。また、ベンチマークにとどまらず、特定の分布外ギャップの調査を行うために、ドメインに特化したベースラインモデルとともに、一人称視点および手首視点の大規模データセットDA-Next-5Mを導入しています。
成果
評価の結果、メモリが利用可能な場合はフルコンテキストのフィードフォワードモデルが精度の上限を定める一方で、メモリ制限のあるアプローチは長いシーケンスに対してスケーラブルであるものの、一般的にジオメトリの精度を犠牲にすることが分かりました。また、単に学習データ量を増やすよりもデータ品質と厳密なドメインの整合性が重要であり、一人称視点および手首視点のドメインが最も顕著な分布外の失敗モードとして現れることが示されました。これらの身体的視点の設定において、DA-Nextはスパースおよび中程度の入力における深度AbsRelでDA3-Giantをそれぞれ47%および59%上回り、姿勢AUC@30を3.1%および5.5%向上させており、インドメインのターゲットデータをキュレーションする価値を実証しています。
論文の注目点
- SpatialBenchは、19のデータセット、546のシーン、5つのタスクスイート、および4つの決定論的な入力密度レジームにわたって、6つの空間モデルパラダイムからなる41のモデルバリアントを評価している。
- ベンチマーク分析により、フルコンテキストのアテンションが制限された入力において最高の精度をもたらす一方で、ストリーミング、チャンク処理、SLAM、テスト時学習手法は限られたメモリ下での長シーケンス処理により適しているという明確なトレードオフが示された。
- 最も深刻な汎化の課題は一人称視点および手首視点のドメインで発生するが、提案されたDA-Next-5MデータセットとDA-Nextベースラインは、ターゲットを絞ったインドメインデータがこのギャップを大幅に縮小できることを実証している。
参考リンク
- arXiv: https://arxiv.org/abs/2605.27367v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2605.27367v1
- Hugging Face Papers: https://huggingface.co/papers/2605.27367