論文の概要: Mamba-VGGT: Persistent Long-Sequence Video Geometry Grounded Transformer via External Sliding Window Mamba Memory
- arxiv url: http://arxiv.org/abs/2605.17478v1
- Date: Sun, 17 May 2026 14:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.111762
- Title: Mamba-VGGT: Persistent Long-Sequence Video Geometry Grounded Transformer via External Sliding Window Mamba Memory
- Title(参考訳): Mamba-VGGT:外部スライディングウインドウマンバメモリによる長周期ビデオ幾何接地変圧器
- Authors: Tianchen Deng, Zhenxiang Xiong, Nailin Wang, Fangjinhua Wang, Jiuming Liu, Jianfei Yang, Hesheng Wang,
- Abstract要約: 本稿では,長期的推論が可能な拡張VGGTフレームワークであるMamba-VGGTを提案する。
我々の研究は、広範囲な3次元環境における幾何学的世界モデリングのためのスケーラブルで線形複雑性のあるソリューションを提供する。
- 参考スコア(独自算出の注目度): 37.05996890779604
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Geometry Grounded Transformers (VGGT) have set new benchmarks in high-fidelity 3D scene reconstruction. However, as the sequence length increases, these models suffer from catastrophic geometric forgetting and accumulation drift, primarily due to the quadratic complexity of global attention which necessitates truncated temporal windows. To overcome the resulting geometric drift, we present Mamba-VGGT, an enhanced VGGT framework capable of persistent long-range reasoning. Our key contribution is a Sliding Window Mamba (SWM) memory module that maintains an explicit external memory token across temporal windows. This module leverages selective state-space modeling to distill and propagate global geometric priors, effectively bypassing the memory constraints of traditional transformers. To integrate these long-term temporal cues without disrupting the highly optimized spatial features of the pre-trained VGGT, we propose a Zero-Init Spatial Memory Injector. Utilizing zero-convolutional layers, this injector adaptively fuses persistent memory into the patch token stream, ensuring structural stability and seamless feature alignment. Extensive experiments demonstrate that our approach significantly outperforms existing VGGT-based methods in maintaining spatial consistency and reducing trajectory accumulation errors. Our work provides a scalable, linear-complexity solution for geometry-grounded world modeling in extensive 3D environments.
- Abstract(参考訳): Visual Geometry Grounded Transformers (VGGT) は高忠実度3Dシーン再構成のベンチマークを新たに設定した。
しかし、シーケンスの長さが増加するにつれて、これらのモデルは破滅的な幾何学的忘れと蓄積のドリフトに悩まされる。
得られた幾何的ドリフトを克服するために,長期的推論が可能な拡張VGGTフレームワークであるMamba-VGGTを提案する。
主要なコントリビューションはSliding Window Mamba(SWM)メモリモジュールです。
このモジュールは、選択的な状態空間モデリングを利用して、グローバルな幾何学的前提を蒸留し、伝播させ、従来のトランスフォーマーのメモリ制約を効果的に回避する。
事前訓練されたVGGTの高度に最適化された空間的特徴を損なうことなく、これらの長期的時間的手がかりを統合するために、ゼロインジット空間記憶インジェクタを提案する。
ゼロ畳み込みレイヤを利用することで、このインジェクタは永続メモリをパッチトークンストリームに適応的に融合し、構造安定性とシームレスな機能アライメントを確保する。
本手法は空間的整合性を維持し,軌道の累積誤差を低減するために既存のVGGT法よりも優れていることを示す。
我々の研究は、広範囲な3次元環境における幾何学的世界モデリングのためのスケーラブルで線形複雑性のあるソリューションを提供する。
関連論文リスト
- Attention Itself Could Retrieve.RetrieveVGGT: Training-Free Long Context Streaming 3D Reconstruction via Query-Key Similarity Retrieval [86.05617542701644]
Visual Geometry Grounded Transformer (VGGT)はスケーラブルなTransformerアーキテクチャを通じて3D再構成を行う。
StreamVGGTは因果的にストリーミングを可能にするが、KVキャッシュはフレームとともに線形に成長し、メモリオーバーフローと品質劣化を引き起こす。
本稿では、VGGTのコンテキスト構築を検索問題として定式化する、トレーニング不要なフレームワークRetrieveVGGTを提案する。
論文 参考訳(メタデータ) (2026-05-10T16:41:54Z) - Progressive Split Mamba: Effective State Space Modelling for Image Restoration [19.506549697690396]
最近の状態空間モデル(SSM)は、長距離依存性モデリングの魅力的な線形時間代替を提供する。
PS-Mamba(PS-Mamba)は、局所性保存と効率的なグローバルな伝播を両立させるために設計されたトポロジ対応の階層的状態空間フレームワークである。
超解像、デノイング、JPEGアーティファクトの大幅な削減に関する実験は、最近のMambaベースおよび注目ベースモデルに対して、明確なマージンを持つ一貫した改善を示している。
論文 参考訳(メタデータ) (2026-03-10T04:19:52Z) - OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer [14.628152488797356]
OVGGTはトレーニング不要のフレームワークで、メモリと計算を、シーケンスの長さに関わらず固定予算にバウンドする。
我々は,OVGGTが一定のVRAMエンベロープ内で任意の長さのビデオを処理し,最先端の3D幾何精度を実現していることを示す。
論文 参考訳(メタデータ) (2026-03-06T06:44:17Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - AllMem: A Memory-centric Recipe for Efficient Long-context Modeling [32.025154452526856]
大規模言語モデル(LLM)は、長時間のタスクにおいて重大なパフォーマンスボトルネックに直面する。
SWA(Sliding Window Attention)とTTT(Non-linear Test-Time Training)メモリネットワークを統合した,新規で効率的なハイブリッドアーキテクチャであるtextscAllMemを紹介する。
論文 参考訳(メタデータ) (2026-02-14T09:04:28Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。