論文の概要: SpatialBench: Is Your Spatial Foundation Model an All-Round Player?
- arxiv url: http://arxiv.org/abs/2605.27367v1
- Date: Tue, 26 May 2026 17:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.59399
- Title: SpatialBench: Is Your Spatial Foundation Model an All-Round Player?
- Title(参考訳): SpaceBench: あなたの空間ファンデーションモデルはオールロードプレーヤーか?
- Authors: Haosong Peng, Hao Li, Jiaqi Chen, Yuhao Pan, Runmao Yao, Yalun Dai, Fushuo Huo, Fangzhou Hong, Zhaoxi Chen, Haozhao Wang, Dingwen Zhang, Ziwei Liu, Wenchao Xu,
- Abstract要約: 空間ベンチ(SpatialBench)は、決定論的サンプリングを伴う空間基盤モデルのための、クロスパラダイムなドメインディバースベンチマークである。
6つのパラダイムにまたがる41のモデルを4つの異なる入力密度設定の下で5つのタスクスイートで包括的に評価する。
厳密なドメインアライメントと高いデータ品質が、単純なデータセットスケーリングよりもパフォーマンスに極めて重要であることを示す。
- 参考スコア(独自算出の注目度): 92.031716744172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While spatial foundation models have demonstrated impressive performance on standard datasets, a critical question remains: are they truly all-round players capable of generalizing robustly across diverse downstream tasks, arbitrary viewpoints, shifting scene domains, varying input densities, and specific hardware constraints? Answering this overarching question requires a holistic assessment, yet current models are mainly evaluated on specific domains for which they were specifically designed or trained. Such evaluations are intrinsically limited by narrow paradigm coverage, limited scene domains, and arbitrary frame sampling, making it fundamentally difficult to assess their true generalization capabilities. To address this gap, we present SpatialBench, a cross-paradigm, domain-diverse benchmark for spatial foundation models with deterministic sampling. SpatialBench features unprecedented scale and rigorous deterministic design, comprising 19 datasets and 546 scenes across 5 diverse spatial domains. It comprehensively evaluates 41 models across 6 paradigms on 5 task suites under 4 different input density settings. Our extensive evaluation reveals that current models are not yet all-round players, and uncovers crucial insights for future advancement. Specifically, we demonstrate that full-context attention maximizes accuracy while bounded-memory strategies unlock long-sequence scalability. Moreover, our empirical evaluations in challenging embodied and egocentric tasks demonstrate that strict domain alignment and high data quality are far more critical to performance than simple dataset scaling. Furthermore, to address the largest data gap identified in our analysis, we go beyond evaluation by introducing a large-scale dataset, DA-Next-5M, and a strong baseline model, DA-Next, pushing the boundaries of spatial representation learning.
- Abstract(参考訳): 空間基盤モデルは標準的なデータセットで素晴らしいパフォーマンスを示してきたが、重要な疑問が残る。彼らは本当に、さまざまな下流タスク、任意の視点、シーンドメインのシフト、入力密度の変化、特定のハードウェア制約に対して、堅牢に一般化できる全ラウンドのプレイヤーなのか?
この包括的な疑問に答えるには、全体的評価が必要ですが、現在のモデルは、特に設計または訓練された特定のドメインで主に評価されます。
このような評価は、狭いパラダイムカバレッジ、限られたシーンドメイン、任意のフレームサンプリングによって本質的に制限されており、真の一般化能力を評価することは根本的に困難である。
このギャップに対処するために、決定論的サンプリングを用いた空間基盤モデルのためのクロスパラダイム・ドメイン・ディバース・ベンチマークであるSpatialBenchを提案する。
SpaceBenchは、19のデータセットと5つの異なる空間領域にわたる546のシーンからなる、前例のないスケールと厳密な決定論的設計を特徴としている。
6つのパラダイムにまたがる41のモデルを4つの異なる入力密度設定の下で5つのタスクスイートで包括的に評価する。
我々の広範な評価は、現在のモデルがまだ全ラウンドのプレイヤーではないことを明らかにし、将来の進歩にとって重要な洞察を明らかにする。
具体的には,完全コンテキストの注意が精度を最大化し,境界メモリ戦略が長期のスケーラビリティを解放することを示した。
さらに、具体的でエゴセントリックなタスクに挑戦する上での実証的な評価は、単純なデータセットスケーリングよりも、厳密なドメインアライメントと高いデータ品質がパフォーマンスに極めて重要であることを示している。
さらに,分析で特定される最大のデータギャップに対処するために,大規模データセットDA-Next-5Mと強力なベースラインモデルDA-Nextを導入し,空間表現学習の境界を推し進める。
関連論文リスト
- DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge in Large Language Models [51.56484100374058]
大きな言語モデルは一般的な質問に答えるときに有能に見えるが、ドメイン固有の詳細にプッシュされると失敗することが多い。
3つのイノベーションを通じて知識の深さを測定するドメインに依存しないフレームワークであるDepthChargeを紹介します。
モデルが実際に言及している概念に基づいてフォローアップ質問を生成する適応的探索、権威のある情報源からのオンデマンドの事実検証、あらゆる深さのサンプルサイズが一定である生存統計。
論文 参考訳(メタデータ) (2026-03-05T20:49:11Z) - It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks [87.7937890373758]
時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。
我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。
静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:31:01Z) - TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models [52.21298691935726]
時系列で推論する能力は、ジェネラリストモデルが現実的な問題を解決するための基本的なスキルである。
このギャップを埋めるために、時系列推論機能の全スペクトルをストレステストするために設計された総合的なベンチマークであるTSRBenchを紹介する。
論文 参考訳(メタデータ) (2026-01-26T18:04:54Z) - ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving [62.9051914830949]
実世界の運転の複雑さを捉えるために設計された,大規模で多様で費用効率のよい深度データセットであるROVRを提案する。
軽量な取得パイプラインは、スケーラブルなコレクションを保証すると同時に、統計的に十分な基礎的真実は堅牢なトレーニングをサポートする。
最先端の単分子深度モデルによるベンチマークでは、厳密なクロスデータセットの一般化失敗が示される。
論文 参考訳(メタデータ) (2025-08-19T16:13:49Z) - Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Spatial457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models [8.499125564147834]
空間推論のための4つの重要な機能を備えた,スケーラブルで偏りのない合成データセットを提案する。
本研究では,5つの難易度にまたがって7つの質問型を構成するカスケード評価構造を構築した。
特に3次元推論や6次元空間的タスクにおいて,タスクの複雑さが増大するにつれて,パフォーマンスの全般的な低下が観察される。
論文 参考訳(メタデータ) (2025-02-12T18:53:20Z) - MSTAR: Multi-Scale Backbone Architecture Search for Timeseries
Classification [0.41185655356953593]
ニューラルアーキテクチャサーチ(NAS)のための新しいマルチスケール検索空間とフレームワークを提案する。
我々のモデルは、トレーニングされていない重量とトレーニング済み重量の両方を持つ強力なTransformerモジュールを使用するためのバックボーンとして機能することを示します。
検索空間は4つの異なる領域の4つのデータセットで最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2024-02-21T13:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。