論文の概要: STAC: Plug-and-Play Spatio-Temporal Aware Cache Compression for Streaming 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2603.20284v1
- Date: Wed, 18 Mar 2026 06:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.801152
- Title: STAC: Plug-and-Play Spatio-Temporal Aware Cache Compression for Streaming 3D Reconstruction
- Title(参考訳): STAC:3D再構成のための時空間キャッシュ圧縮
- Authors: Runze Wang, Yuxuan Song, Youcheng Cai, Ligang Liu,
- Abstract要約: ストリーミング入力からの3D再構成には、長期的な時間的一貫性と効率的なメモリ使用の両方が必要である。
STACは大きな因果変換器で3D再構成を行うためのフレームワークである。
実験の結果,STACはメモリ消費を10倍近く削減し,VG 4xによる推論を高速化しながら,最先端の再構築品質を実現することがわかった。
- 参考スコア(独自算出の注目度): 16.772404929988507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online 3D reconstruction from streaming inputs requires both long-term temporal consistency and efficient memory usage. Although causal VGGT transformers address this challenge through a key-value (KV) cache mechanism, the cache grows linearly with the stream length, creating a major memory bottleneck. Under limited memory budgets, early cache eviction significantly degrades reconstruction quality and temporal consistency. In this work, we observe that attention in causal transformers for 3D reconstruction exhibits intrinsic spatio-temporal sparsity. Based on this insight, we propose STAC, a Spatio-Temporally Aware Cache Compression framework for streaming 3D reconstruction with large causal transformers. STAC consists of three key components: (1) a Working Temporal Token Caching mechanism that preserves long-term informative tokens using decayed cumulative attention scores; (2) a Long-term Spatial Token Caching scheme that compresses spatially redundant tokens into voxel-aligned representations for memory-efficient storage; and (3) a Chunk-based Multi-frame Optimization strategy that jointly processes consecutive frames to improve temporal coherence and GPU efficiency. Extensive experiments show that STAC achieves state-of-the-art reconstruction quality while reducing memory consumption by nearly 10x and accelerating inference by 4x, substantially improving the scalability of real-time 3D reconstruction in streaming settings.
- Abstract(参考訳): ストリーミング入力からのオンライン3D再構成には、長期的な時間的一貫性と効率的なメモリ使用の両方が必要である。
因果VGGT変換器はキー値(KV)キャッシュ機構を通じてこの問題に対処するが、キャッシュはストリーム長とともに線形に成長し、大きなメモリボトルネックを生み出す。
メモリの予算が限られているため、初期のキャッシュ消去は再構築品質と時間的一貫性を著しく低下させる。
本研究では,3次元再構成のための因果変換器の注意が,時間空間の内在性を示すことを観察する。
この知見に基づいて,大規模な因果変換器を用いた3D再構成を行うための時空間キャッシュ圧縮フレームワークSTACを提案する。
STACは,(1) 時間的コヒーレンスとGPU効率を向上させるために連続フレームを共同処理するチャンクベースの多フレーム最適化戦略,(2) 空間的冗長なトークンを記憶効率向上のためにボクセル整列表現に圧縮する長期空間的トークンキャッシング方式,の3つの主要な構成要素から構成される。
大規模な実験により,STACはメモリ消費を10倍近く削減し,推論を4倍高速化し,ストリーミング環境におけるリアルタイム3D再構成のスケーラビリティを大幅に向上した。
関連論文リスト
- XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression [20.18561757219652]
XStreamVGGTは、プルニングと量子化をシームレスに統合し、KVキャッシュを体系的に圧縮するチューニング不要のアプローチである。
XStreamVGGTは、ほとんど無視可能なパフォーマンス劣化を実現し、メモリ使用量を4.42$times$で大幅に削減する。
論文 参考訳(メタデータ) (2026-02-25T11:02:02Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression [20.18561757219652]
XStreamVGGTは、ジョイントプルーニングと量子化によってKVキャッシュを圧縮するチューニング不要のアプローチである。
我々は,XStreamVGTがメモリ使用量を大幅に削減しつつ,ほとんど無視可能な性能劣化を実現することを示す。
論文 参考訳(メタデータ) (2026-01-03T14:59:50Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration [16.87269278147738]
我々は3次元拡散推論のためのトレーニング不要な幾何認識キャッシュフレームワークであるFast3Dcacheを提案する。
提案手法は最大27.12%のスピードアップと54.8%のFLOPの削減を実現し,チャンファー距離 (2.48%) とFスコア (1.95%) で測定された幾何学的品質の低下を最小限に抑えた。
論文 参考訳(メタデータ) (2025-11-27T15:13:32Z) - Sliding Window Attention for Learned Video Compression [67.57073402826292]
本研究は3D Sliding Window Attention (SWA)を導入している。
Bjorntegaard Delta-rate saves to up 18.6% %。
論文 参考訳(メタデータ) (2025-10-04T20:11:43Z) - LONG3R: Long Sequence Streaming 3D Reconstruction [29.79885827038617]
Long3Rは、より長いシーケンス上でのマルチビュー3Dシーン再構成をストリーミングするために設計された新しいモデルである。
本モデルでは,新たな観測値の更新と更新を繰り返すことで,リアルタイム処理を実現している。
実験により、LONG3Rは、特に長いシーケンスにおいて、最先端のストリーミング手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-07-24T09:55:20Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。