論文の概要: Solving Spatial Supersensing Without Spatial Supersensing
- arxiv url: http://arxiv.org/abs/2511.16655v1
- Date: Thu, 20 Nov 2025 18:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.8019
- Title: Solving Spatial Supersensing Without Spatial Supersensing
- Title(参考訳): 空間的過感を伴わない空間的過感の解消
- Authors: Vishaal Udandarao, Shyamgopal Karthik, Surabhi S. Nath, Andreas Hochlehnert, Matthias Bethge, Ameya Prabhu,
- Abstract要約: Cambrian-Sは、空間的スーパーセンシングでビデオワールドモデルを改善するための第一歩を踏み出す。
本研究では,Cambrian-Sを2つのベンチマークで解析する。
VSRのようなベンチマークは,空間認識や世界モデリング,空間スーパーセンシングを使わずにほぼ解決可能であることを示す。
- 参考スコア(独自算出の注目度): 31.7966908405844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cambrian-S aims to take the first steps towards improving video world models with spatial supersensing by introducing (i) two benchmarks, VSI-Super-Recall (VSR) and VSI-Super-Counting (VSC), and (ii) bespoke predictive sensing inference strategies tailored to each benchmark. In this work, we conduct a critical analysis of Cambrian-S across both these fronts. First, we introduce a simple baseline, NoSense, which discards almost all temporal structure and uses only a bag-of-words SigLIP model, yet near-perfectly solves VSR, achieving 95% accuracy even on 4-hour videos. This shows benchmarks like VSR can be nearly solved without spatial cognition, world modeling or spatial supersensing. Second, we hypothesize that the tailored inference methods proposed by Cambrian-S likely exploit shortcut heuristics in the benchmark. We illustrate this with a simple sanity check on the VSC benchmark, called VSC-Repeat: We concatenate each video with itself 1-5 times, which does not change the number of unique objects. However, this simple perturbation entirely collapses the mean relative accuracy of Cambrian-S from 42% to 0%. A system that performs spatial supersensing and integrates information across experiences should recognize views of the same scene and keep object-count predictions unchanged; instead, Cambrian-S inference algorithm relies largely on a shortcut in the VSC benchmark that rooms are never revisited. Taken together, our findings suggest that (i) current VSI-Super benchmarks do not yet reliably measure spatial supersensing, and (ii) predictive-sensing inference recipes used by Cambrian-S improve performance by inadvertently exploiting shortcuts rather than from robust spatial supersensing. We include the response from the Cambrian-S authors (in Appendix A) to provide a balanced perspective alongside our claims. We release our code at: https://github.com/bethgelab/supersanity
- Abstract(参考訳): Cambrian-Sは空間的スーパーセンシングによるビデオワールドモデルの改善に向けて第一歩を踏み出す
(i)VSI-Super-Counting(VSC)とVSI-Super-Recall(VSR)の2つのベンチマーク
(II)各ベンチマークに適合した予測センシング推論戦略を思い起こさせる。
本研究では、両面にわたってカンブリア-Sの臨界解析を行う。
まず、簡単なベースラインであるNoSenseを導入し、4時間ビデオでも95%の精度でVSRをほぼ完璧に解き、ほぼ全ての時間構造を破棄し、単語のバッグ・オブ・ワードSigLIPモデルのみを使用する。
これは、VSRのようなベンチマークが、空間認識、世界モデリング、空間スーパーセンシングなしでほぼ解決可能であることを示している。
第2に、Cambrian-S が提案した調整推論手法は、ベンチマークでショートカットヒューリスティックスを利用する可能性が高いという仮説を立てる。
私たちは、VSCベンチマークでVSC-Repeatと呼ばれる単純な正当性チェックでこれを説明します。
しかし、この単純な摂動はカンブリアSの平均相対精度を42%から0%に完全に崩壊させる。
空間的スーパーセンシングを実行し、経験にまたがる情報を統合するシステムは、同じシーンのビューを認識して、オブジェクト数を予測する。
まとめると、我々の研究結果が示唆している。
(i)現在のVSI-Superベンチマークは、まだ空間的スーパーセンシングを確実に測定していない。
(II)Cambrian-Sが用いる予測型推論法は、頑健な空間的スーパーセンシングからではなく、不注意にショートカットを活用することによって性能を向上させる。
私たちはCambrian-Sの著者(Appendix A)から、私たちの主張と並行してバランスのとれた視点を提供する回答を含んでいます。
コードについては、https://github.com/bethgelab/supersanity.comで公開しています。
関連論文リスト
- Cambrian-S: Towards Spatial Supersensing in Video [78.46305169769884]
我々は,意味認識,ストリーミングイベント認知,暗黙的な3次元空間認識,予測的世界モデリングという,言語のみの理解を超えた4つの段階を空間的スーパーセンシングとして捉えた。
VSR (long-horizon visual space recall) とVSC (continual visual space counting) の2部ベンチマークである。
次に、590Kを計算し、Cambrian-Sを訓練することで、任意の汎用能力に対して30%以上の絶対的な改善を達成し、データスケーリングの限界をテストする。
我々は,自己教師型概念実証を提示し,前方進路としての予測知覚を提案する。
論文 参考訳(メタデータ) (2025-11-06T18:55:17Z) - Scalable and adaptive prediction bands with kernel sum-of-squares [0.5530212768657544]
Conformal Prediction (CP) は、有限サンプルで有効なカバレッジを持つ予測帯域を構築するための一般的なフレームワークである。
我々は,CP問題を統計的学習問題として再放送し,適用範囲と適応率を直接ターゲットとした最近の考え方を構築した。
論文 参考訳(メタデータ) (2025-05-27T11:21:17Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - SC^2-PCR: A Second Order Spatial Compatibility for Efficient and Robust
Point Cloud Registration [32.87420625579577]
本稿では,2次空間整合性(SC2)尺度を提案する。
この測定に基づいて,我々の登録パイプラインは,初期対応から信頼性の高い種子を見つけるために,グローバルスペクトル技術を用いている。
提案手法では,サンプリングを少なくすることで,一定の数の外れ値のないコンセンサス集合を見つけることが保証される。
論文 参考訳(メタデータ) (2022-03-28T02:41:28Z) - VSAC: Efficient and Accurate Estimator for H and F [68.65610177368617]
VSACはRANSAC型頑健な推定器であり、多くの新奇性がある。
従来のすべてのプロセッサよりも大幅に高速で、CPU上では平均1-2msで動作する。
現在最も正確な2次元幾何学推定器である MAGSAC++ と同等の精度で2桁高速である。
論文 参考訳(メタデータ) (2021-06-18T17:04:57Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z) - A Comprehensive Comparison of End-to-End Approaches for Handwritten
Digit String Recognition [21.522563264752577]
我々は,HDSR問題,特にオブジェクト検出とシーケンス・ツー・シーケンス表現に基づく2つの分野において,様々なエンドツーエンドアプローチを評価した。
以上の結果から,Yoloモデルとセグメント化のないモデルでは,パイプラインが短くなるという利点があることがわかった。
論文 参考訳(メタデータ) (2020-10-29T19:38:08Z) - 1st Place Solutions for OpenImage2019 -- Object Detection and Instance
Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。
一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。
自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文 参考訳(メタデータ) (2020-03-17T06:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。