論文の概要: Cambrian-S: Towards Spatial Supersensing in Video
- arxiv url: http://arxiv.org/abs/2511.04670v1
- Date: Thu, 06 Nov 2025 18:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.578869
- Title: Cambrian-S: Towards Spatial Supersensing in Video
- Title(参考訳): Cambrian-S:ビデオにおける空間スーパーセンシングを目指して
- Authors: Shusheng Yang, Jihan Yang, Pinzhi Huang, Ellis Brown, Zihao Yang, Yue Yu, Shengbang Tong, Zihan Zheng, Yifan Xu, Muhan Wang, Daohan Lu, Rob Fergus, Yann LeCun, Li Fei-Fei, Saining Xie,
- Abstract要約: 我々は,意味認識,ストリーミングイベント認知,暗黙的な3次元空間認識,予測的世界モデリングという,言語のみの理解を超えた4つの段階を空間的スーパーセンシングとして捉えた。
VSR (long-horizon visual space recall) とVSC (continual visual space counting) の2部ベンチマークである。
次に、590Kを計算し、Cambrian-Sを訓練することで、任意の汎用能力に対して30%以上の絶対的な改善を達成し、データスケーリングの限界をテストする。
我々は,自己教師型概念実証を提示し,前方進路としての予測知覚を提案する。
- 参考スコア(独自算出の注目度): 78.46305169769884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that progress in true multimodal intelligence calls for a shift from reactive, task-driven systems and brute-force long context towards a broader paradigm of supersensing. We frame spatial supersensing as four stages beyond linguistic-only understanding: semantic perception (naming what is seen), streaming event cognition (maintaining memory across continuous experiences), implicit 3D spatial cognition (inferring the world behind pixels), and predictive world modeling (creating internal models that filter and organize information). Current benchmarks largely test only the early stages, offering narrow coverage of spatial cognition and rarely challenging models in ways that require true world modeling. To drive progress in spatial supersensing, we present VSI-SUPER, a two-part benchmark: VSR (long-horizon visual spatial recall) and VSC (continual visual spatial counting). These tasks require arbitrarily long video inputs yet are resistant to brute-force context expansion. We then test data scaling limits by curating VSI-590K and training Cambrian-S, achieving +30% absolute improvement on VSI-Bench without sacrificing general capabilities. Yet performance on VSI-SUPER remains limited, indicating that scale alone is insufficient for spatial supersensing. We propose predictive sensing as a path forward, presenting a proof-of-concept in which a self-supervised next-latent-frame predictor leverages surprise (prediction error) to drive memory and event segmentation. On VSI-SUPER, this approach substantially outperforms leading proprietary baselines, showing that spatial supersensing requires models that not only see but also anticipate, select, and organize experience.
- Abstract(参考訳): 真のマルチモーダルインテリジェンスの進歩は、リアクティブなタスク駆動システムと、より広範なスーパーセンシングパラダイムへのブルートフォースロングコンテキストへのシフトを要求している、と我々は主張する。
空間的スーパーセンシングは、言語のみの理解を超えた4つの段階として、意味認識(目に見えるものの名前)、ストリーミングイベント認知(連続的な体験を通して記憶を維持する)、暗黙的な3次元空間認識(ピクセルの背後にある世界を参照)、予測的世界モデリング(情報のフィルタリングと整理を行う内部モデルの作成)を構成している。
現在のベンチマークは主に初期段階のみをテストし、空間認識の狭い範囲と、真の世界モデリングを必要とする方法ではめったに挑戦的なモデルを提供する。
VSR (long-horizon visual space recall) とVSC (continual visual space counting) の2部ベンチマークであるVSI-SUPERを提案する。
これらのタスクは、任意に長いビデオ入力を必要とするが、ブルートフォースのコンテキスト拡張に耐性がある。
次に、VSI-590Kを計算し、Cambrian-Sを訓練することにより、一般的な能力を犠牲にすることなく、VSI-Benchの絶対的な改善を+30%達成することで、データのスケーリング限界をテストする。
しかし、VSI-SUPERの性能は依然として限られており、空間的スーパーセンシングにはスケール単独では不十分であることを示している。
本稿では,自己教師型次世代フレーム予測器がサプライズ(予測誤差)を利用してメモリとイベントセグメンテーションを駆動する概念実証を提案する。
VSI-SUPERでは、このアプローチはプロプライエタリなベースラインを著しく上回り、空間的スーパーセンシングには、経験を期待し、選択し、整理するだけでなく、モデルが必要であることを示す。
関連論文リスト
- SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding [64.86119288520419]
マルチモーダル言語モデルは時間と空間の空間的推論に苦しむ。
SIMS-Vは3次元シミュレータの特権情報を利用するシステムデータ生成フレームワークである。
提案手法は,実世界の空間的タスクの具体的改善を図りながら,一般的な映像理解の性能を維持しながら,堅牢な一般化を実証する。
論文 参考訳(メタデータ) (2025-11-06T18:53:31Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model [33.18304419115947]
SEE&TREKは、視覚のみの制約下でのマルチモーダル大言語モデル(MLLM)の空間的理解を強化する最初のトレーニングフリープロンプトフレームワークである。
視覚的多様性の向上と運動再建に注力する。
本手法はトレーニング・GPUフリーであり,1回のフォワードパスしか必要とせず,既存のMLLMSにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-09-19T15:30:26Z) - LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks [22.011855291417856]
VLM(Vision-Language Models)が空間的関係を認識し空間的動きを知覚する方法は、まだ解明されていない。
本研究では,空間評価パイプラインを導入し,対応するベンチマークを構築する。
我々は、複数の最先端VLMの実験を行い、改善の余地があることを観察する。
論文 参考訳(メタデータ) (2025-07-27T08:31:24Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。