論文の概要: Vision-Language Memory for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2511.20644v1
- Date: Tue, 25 Nov 2025 18:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.642484
- Title: Vision-Language Memory for Spatial Reasoning
- Title(参考訳): 空間推論のための視覚言語記憶
- Authors: Zuntao Liu, Yi Du, Taimeng Fu, Shaoshu Su, Cherie Ho, Chen Wang,
- Abstract要約: VLM$2$は空間推論のための永続記憶を持つ視覚言語モデルである。
VLM$2$は、ビデオのみのモデル間で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 4.486751990718678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning is a critical capability for intelligent robots, yet current vision-language models (VLMs) still fall short of human-level performance in video-based spatial reasoning. This gap mainly stems from two challenges: a semantic-geometric misalignment that prevents consistent 3D understanding, and the absence of persistent memory to retain 3D representation and understanding over time. To address these limitations, we present VLM$^2$, a Vision-Language Model with persistent Memory for spatial reasoning with a view-consistent, 3D-aware representation purely from 2D video. Specifically, to enhance long-horizon reasoning, we incorporate a dual-memory module, consisting of a working memory that operates as a sliding window to focus on immediate context, and an episodic memory that consolidates and stores critical long-term information. This design enables efficient and long-horizon spatial reasoning with a fixed computational cost. Extensive experiments on multiple benchmarks show that VLM$^2$ achieves state-of-the-art performance among video-only models, significantly advancing the frontier of visual-spatial intelligence.
- Abstract(参考訳): 空間推論はインテリジェントロボットにとって重要な能力であるが、現在の視覚言語モデル(VLM)はビデオベースの空間推論において人間レベルの性能に欠けている。
このギャップは主に、一貫した3D理解を妨げる意味幾何学的不整合(semantic-geometric misalignment)と、時間の経過とともに3D表現と理解を維持するための永続記憶の欠如という2つの課題に起因している。
これらの制約に対処するために、ビュー一貫性の3D認識表現を2Dビデオから純粋に表現した空間的推論のための永続メモリ付き視覚言語モデルVLM$^2$を提案する。
具体的には、時間軸推論を強化するために、スライディングウィンドウとして機能する作業メモリと、重要な長期情報を統合・保存するエピソードメモリからなるデュアルメモリモジュールを組み込んだ。
この設計により、計算コストの固定化により、効率的で長期の空間推論が可能となる。
複数のベンチマーク実験により、VLM$^2$はビデオのみのモデル間の最先端性能を実現し、視覚空間知能のフロンティアを著しく向上させることが示された。
関連論文リスト
- VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models [78.88575188716378]
VisMemはヴィジュアル・ランゲージ・モデルに動的潜在視覚記憶、微細な知覚保持のための短期モジュール、抽象的セマンティック・コンソリデーションのための長期モジュールを装備するフレームワークである。
我々の実験によると、VisMemはバニラモデルと比較して11.8%の大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-11-14T06:51:34Z) - JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation [22.956416709470503]
Vision-and-Language Navigationでは、自然言語命令と連続的なビデオストリームによってガイドされた、目に見えない環境をナビゲートするために、エンボディエージェントが必要である。
VLNの最近の進歩は、マルチモーダル大規模言語モデルの強力な意味理解によって推進されている。
本稿では,空間幾何学的,視覚的セマンティックメモリを分離,コンパクト,固定サイズのニューラル表現としてモデル化した,二重暗黙的ニューラルメモリを備えた新しいVLNフレームワークであるJanusVLNを提案する。
論文 参考訳(メタデータ) (2025-09-26T16:29:37Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:13Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。