論文の概要: Q-GeoMem: Question-Guided Geometric Memory for Video Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2605.27318v1
- Date: Tue, 26 May 2026 17:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.565044
- Title: Q-GeoMem: Question-Guided Geometric Memory for Video Spatial Reasoning
- Title(参考訳): Q-GeoMem:ビデオ空間推論のための質問ガイド付き幾何学的メモリ
- Authors: Xianqiang Gao, Qizhi Chen, Delin Qu, Haoming Song, Zhigang Wang, Bin Zhao, Dong Wang, Xuelong Li,
- Abstract要約: ビデオ空間推論のための質問誘導幾何メモリフレームワークを提案する。
カメラ条件の幾何学を 視覚トークンに注入し 2つの相補記憶を維持します
本研究は,評価空間推論モデルにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 53.96129188781529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video spatial reasoning requires accumulating viewpoint-dependent evidence over time while retaining information useful to the question being asked. Existing spatial video-language models improve geometric perception and long-range context modeling, but often treat memory as a generic temporal cache, which can introduce redundant or irrelevant geometry and weaken long-horizon reasoning. We propose \textbf{\ours}, a question-guided geometric memory framework for video spatial reasoning. \ours injects camera-conditioned geometry into visual tokens and maintains two complementary memories: a Fine-Grained Context Bank for recent dense features and camera states, and a Semantic-Geometric Evidence Bank for compact long-range evidence. Each candidate frame is scored by the product of Q-Former-based question relevance and novelty with respect to the retained bank; this score is stored and reused during reading, while a capacity-based replacement rule keeps the bank compact. During reasoning, both memories are read before update and adaptively fused with the current frame representation. Experiments on VSI-Bench and VSTI-Bench show that \ours achieves state-of-the-art performance among evaluated spatial reasoning models, validating the effectiveness of question-guided geometric memory. Ablations further verify the contribution of the proposed evidence scoring mechanism.
- Abstract(参考訳): ビデオ空間推論は、質問された質問に有用な情報を保持しながら、視点に依存した証拠を時間とともに蓄積する必要がある。
既存の空間ビデオ言語モデルは、幾何学的知覚と長距離コンテキストモデリングを改善するが、メモリを汎用的な時間キャッシュとして扱うことが多く、冗長または無関係な幾何学を導入し、長期水平推論を弱める。
本稿では,ビデオ空間推論のための問合せ型幾何学的メモリフレームワークである‘textbf{\ours} を提案する。
\oursは、カメラ条件の幾何学を視覚トークンに注入し、最近の密集した特徴とカメラ状態のためのファイン・グラインド・コンテクストバンクと、コンパクトな長距離証拠のためのセマンティック・ジオメトリ・エビデンスバンクの2つの相補的な記憶を維持する。
各候補フレームは、保持された銀行に対するQ-Formerベースの質問関連と新規性によってスコアされ、このスコアは、キャパシティベースの代替ルールが銀行をコンパクトに保ちながら、読み取り中に保存および再利用される。
推論中、両方のメモリは更新前に読み出され、現在のフレーム表現と適応的に融合する。
VSI-Bench と VSTI-Bench の実験により, 評価空間推論モデルにおいて, \ours が最先端性能を達成し, 疑似誘導幾何メモリの有効性を検証した。
アブレーションは、提案されたエビデンススコアリング機構の貢献をさらに検証する。
関連論文リスト
- GeoWeaver: Grounding Visual Tokens with Geometric Evidence before Scene Reasoning [45.229974852899716]
マルチモーダルモデルは、幾何学情報分岐、3D対応の監視、推論段階の融合、ロングホライゾンメモリを含む。
これらのアプローチは通常、幾何学的手がかりをすべての視覚的トークン間の共有信号として扱う。
時間的推論のための表現的前提条件として幾何学を扱うフレームワークであるGeoWeaverを紹介する。
論文 参考訳(メタデータ) (2026-05-21T14:40:03Z) - EgoMemReason: A Memory-Driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding [89.26501160264199]
EgoMemReasonは、メモリ駆動推論を通じて、1週間のエゴセントリックなビデオ理解を体系的に評価する。
EgoMemReasonには3つのメモリタイプと6つのコア課題に関する500の質問が含まれている。
EgoMemReasonをMLLMとエージェントフレームワークにまたがる17の手法で評価する。
論文 参考訳(メタデータ) (2026-05-11T01:59:59Z) - Memorize When Needed: Decoupled Memory Control for Spatially Consistent Long-Horizon Video Generation [22.26820693283945]
本稿では,メモリコンディショニングと生成を分離する分離されたフレームワークを提案する。
我々は、歴史的観測から正確な空間整合性を学ぶために、軽量で独立したメモリブランチを使用している。
提案手法は,視覚的品質と空間的整合性の両方の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-04-20T13:00:17Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT [3.5844726281072448]
StreamVGGTのようなストリーミングビジュアルジオメトリ変換は、強力なオンライン3D知覚を可能にするが、境界のないKVキャッシュの増大に悩まされる。
フレーム駆動型ローリング明示メモリフレームワークであるFrameVGGTを提案し,各フレームのインクリメンタルKVコントリビューションをコヒーレントエビデンスブロックとして扱う。
論文 参考訳(メタデータ) (2026-03-08T15:46:03Z) - Geometry-Aware Rotary Position Embedding for Consistent Video World Model [48.914346802616414]
ViewRopeは、ビデオトランスフォーマーの自己アテンション層に直接カメラの方向を注入するジオメトリ対応のエンコーディングである。
Geometry-Aware Frame-Sparse Attentionは、これらの幾何学的手がかりを利用して、関連する歴史的なフレームに選択的に参加する。
この結果から,ViewRopeは長期的整合性を大幅に向上し,計算コストを低減できることがわかった。
論文 参考訳(メタデータ) (2026-02-08T08:01:16Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。