論文の概要: See, Remember, Explore: A Benchmark and Baselines for Streaming Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2603.23864v1
- Date: Wed, 25 Mar 2026 02:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.098394
- Title: See, Remember, Explore: A Benchmark and Baselines for Streaming Spatial Reasoning
- Title(参考訳): 空間推論をストリーミングするベンチマークとベースライン
- Authors: Yuxi Wei, Wei Huang, Qirui Chen, Lu Hou, Xiaojuan Qi,
- Abstract要約: S3-Benchは,アクティブな探索による空間質問応答をストリーミングするベンチマークスイートである。
S3-Benchはデュアルドメイン設計を採用し、スケーラブルなシミュレータと制御可能な軌道と探索動作を組み合わせた。
提案手法は,S3-Evalのシミュレーションおよび実分割において,それぞれ8.8%と13.3%の改善をもたらす。
- 参考スコア(独自算出の注目度): 41.278682336342165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial understanding is fundamental for embodied agents, yet most spatial VLMs and benchmarks remain offline-evaluating post-hoc QA over pre-recorded inputs and overlooking two crucial deployment-critical requirements: long-horizon streaming inference and active perception when the current view is insufficient. To address this gap, we introduce S3-Bench, a benchmark suite for streaming spatial question answering with active exploration, where queries are temporally grounded to specific timestamps and must be answered using only observations available up to that moment. S3-Bench adopts a dual-domain design, combining a scalable simulator with controllable trajectories and exploration actions, and real-world streaming videos that capture practical sensing artifacts for rigorous generalization evaluation. Overall, it spans 10K+ scenes and 26K+ trajectories, with dedicated training (S3-Train) and evaluation (S3-Eval) splits. We further propose AMF-VLM, which supports streaming spatial reasoning under bounded computing via (i) memory folding, which compresses long-horizon observations into compact structured memory, and (ii) active exploration, which outputs explicit actions (e.g. move/rotate/scan) to acquire missing evidence before answering. Extensive experiments demonstrate that, compared to models using identical training data, our approach yields improvements of 8.8% and 13.3% on the simulated and real splits of S3-Eval, respectively, while maintaining competitive transferability to standard spatial benchmarks.
- Abstract(参考訳): 空間的理解はエンボディエージェントには基本的だが、ほとんどの空間的VLMとベンチマークは、事前記録された入力よりもオフラインで評価されるポストホックQAと、2つの重要なデプロイメントクリティカルな要件であるロングホライゾンストリーミング推論と、現在のビューが不十分な時のアクティブな知覚を見落としている。
このギャップに対処するために、S3-Benchは、アクティブな探索によって応答する空間的質問をストリーミングするベンチマークスイートであり、クエリは時間的に特定のタイムスタンプに基づいており、その瞬間まで利用可能な観測のみを使用して答えなければならない。
S3-Benchは、拡張性のあるシミュレーターと制御可能な軌道と探索動作、および厳密な一般化評価のための実用的な人工物をキャプチャする実世界のストリーミングビデオを組み合わせた二重ドメイン設計を採用する。
総合的には、10K以上のシーンと26K以上のトラジェクトリーにまたがっており、専用のトレーニング(S3-Train)と評価(S3-Eval)が分割されている。
さらに,有界コンピューティングによるストリーミング空間推論をサポートするAMF-VLMを提案する。
一 長期観測をコンパクトな構造化メモリに圧縮するメモリ折り畳み
(ii) 積極的探索(例えば、移動・回転・スキャン)を行い、答える前に行方不明の証拠を取得する。
実験の結果,S3-Evalのシミュレーションおよび実分割において,S3-Evalの精度は8.8%,S3-Evalは13.3%,S3-Evalは8.8%,S3-Evalは8.3%向上した。
関連論文リスト
- Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence [78.1406635199656]
Holi-Spatialは、人間の介入なしに生のビデオ入力から構築された、初めて完全に自動化され、大規模で、空間対応のマルチモーダルデータセットである。
Holi-Spatial-4Mは、12K最適化された3DGSシーン、1.3Mの2Dマスク、320Kの3Dバウンディングボックス、320Kのインスタンスキャプション、1.2Mの3Dグラウンドインスタンス、1.2Mの空間QAペアを含む、最初の大規模で高品質な3Dセマンティックデータセットである。
論文 参考訳(メタデータ) (2026-03-08T14:49:20Z) - Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文 参考訳(メタデータ) (2025-10-23T14:05:56Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - CAST: Cross-Attention in Space and Time for Video Action Recognition [8.785207228156098]
空間時間におけるクロスアテンション(CAST)と呼ばれる新しい2ストリームアーキテクチャを提案する。
CASTは、バランスの取れた入力のみを使用して、ビデオの時間的バランスの取れた理解を実現する。
提案手法により,空間的・時間的専門家モデルによる情報交換と相乗的予測が可能となる。
論文 参考訳(メタデータ) (2023-11-30T18:58:51Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Are We Ready for Vision-Centric Driving Streaming Perception? The ASAP
Benchmark [23.872360763782037]
ASAPは、自律運転における視覚中心の知覚のオンラインパフォーマンスを評価する最初のベンチマークである。
12Hzの原画像の高フレームレートラベルを生成するためのアノテーション拡張パイプラインを提案する。
ASAPベンチマークでは、モデルランクが異なる制約の下で変化することを示す総合的な実験結果が示されている。
論文 参考訳(メタデータ) (2022-12-17T16:32:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。