論文の概要: LongSpace: Exploring Long-Horizon Spatial Memory from Perception to Recall in Video
- arxiv url: http://arxiv.org/abs/2606.05677v1
- Date: Thu, 04 Jun 2026 04:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.540727
- Title: LongSpace: Exploring Long-Horizon Spatial Memory from Perception to Recall in Video
- Title(参考訳): LongSpace: ビデオにおける知覚からリコールまでの長距離空間記憶の探索
- Authors: Shiqiang Lang, Jing Liu, Haoyang He, Peiwen Sun, Yuanteng Chen, Tao Liu, Lan Yang, Longteng Guo, Honggang Zhang,
- Abstract要約: 自律走行やロボットナビゲーションのような長距離作業は、現在の視点を認識する以上のものを必要とします。
長距離空間記憶のためのルームツーリングビデオベンチマークであるLongSpaceを紹介する。
LongSpaceは、長いビデオをシーケンシャルなチャンクとしてモデル化し、3D構造的キューを初期のデコーダ層に組み込み、質問誘導検索のためのレイヤ対応メモリを構築する。
- 参考スコア(独自算出の注目度): 20.1389583507481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have advanced image and video understanding and can increasingly handle longer visual inputs. Long-horizon tasks such as autonomous driving and robotic navigation require more than recognizing the current view, as models must remember and retrieve previously observed spatial layouts, routes, viewpoint changes, and object states. To evaluate this capability, we introduce LongSpace-Bench, a room-tour video benchmark for long-horizon spatial memory, covering scene perception, spatial relations, and spatial memory. In this work, we further propose LongSpace, a memory framework for long-video spatial reasoning. LongSpace models long videos as sequential chunks, incorporates 3D structural cues into early decoder layers, and constructs layer-aware memory for question-guided retrieval. Experiments on multiple spatial reasoning benchmarks show that LongSpace improves long-video spatial understanding, further demonstrating explicit spatial memory as a key capability for long-horizon video MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は高度な画像理解とビデオ理解を持ち、より長い視覚的入力を扱うことができる。
自律走行やロボットナビゲーションのような長距離タスクは、これまで観測された空間配置、ルート、視点の変化、オブジェクト状態などを記憶し、取得する必要があるため、現在のビューを認識する以上のものを必要としている。
この能力を評価するために,LongSpace-Benchという,長距離空間記憶のためのルームツーリングビデオベンチマークを導入し,シーン認識,空間関係,空間記憶について紹介する。
本研究では,長ビデオ空間推論のためのメモリフレームワークであるLongSpaceを提案する。
LongSpaceは、長いビデオをシーケンシャルなチャンクとしてモデル化し、3D構造的キューを初期のデコーダ層に組み込み、質問誘導検索のためのレイヤ対応メモリを構築する。
複数の空間推論ベンチマークによる実験により、LongSpaceは長時間空間理解を改善し、さらに、長距離ビデオMLLMの重要な機能として明示的な空間記憶を示す。
関連論文リスト
- Spatia: Video Generation with Updatable Spatial Memory [60.21619361473996]
Spatiaは空間記憶を意識したビデオ生成フレームワークで、3Dシーンポイントクラウドを永続的な空間記憶として保存する。
Spatiaは、この空間記憶上にコンディションされたビデオクリップを反復的に生成し、視覚SLAMを通じて継続的に更新する。
Spatiaは、明示的なカメラ制御や3D対応のインタラクティブな編集などのアプリケーションを可能にし、スケーラブルでメモリ駆動のビデオ生成のための幾何学的な基盤となるフレームワークを提供する。
論文 参考訳(メタデータ) (2025-12-17T18:59:59Z) - Vision-Language Memory for Spatial Reasoning [4.486751990718678]
VLM$2$は空間推論のための永続記憶を持つ視覚言語モデルである。
VLM$2$は、ビデオのみのモデル間で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-11-25T18:59:02Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:13Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces [34.809309396448654]
5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。
MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
論文 参考訳(メタデータ) (2024-12-18T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。