論文の概要: StreamCacheVGGT: Streaming Visual Geometry Transformers with Robust Scoring and Hybrid Cache Compression
- arxiv url: http://arxiv.org/abs/2604.15237v1
- Date: Thu, 16 Apr 2026 17:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.019013
- Title: StreamCacheVGGT: Streaming Visual Geometry Transformers with Robust Scoring and Hybrid Cache Compression
- Title(参考訳): StreamCacheVGGT:ロバストスコーディングとハイブリッドキャッシュ圧縮によるビジュアルジオメトリ変換器のストリーミング
- Authors: Xuanyi Liu, Deyi Ji, Chunan Yu, Qi Zhu, Xuanfu Li, Jin Ma, Tianrun Chen, Lanyun Zhu,
- Abstract要約: StreamCacheVGTは、キャッシュ管理を再定義するトレーニング不要のフレームワークである。
一定のコストの制約に厳格に固執しつつ、より優れた復元精度と長期安定を提供する。
- 参考スコア(独自算出の注目度): 25.752909957077588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing dense 3D geometry from continuous video streams requires stable inference under a constant memory budget. Existing $O(1)$ frameworks primarily rely on a ``pure eviction'' paradigm, which suffers from significant information destruction due to binary token deletion and evaluation noise from localized, single-layer scoring. To address these bottlenecks, we propose StreamCacheVGGT, a training-free framework that reimagines cache management through two synergistic modules: Cross-Layer Consistency-Enhanced Scoring (CLCES) and Hybrid Cache Compression (HCC). CLCES mitigates activation noise by tracking token importance trajectories across the Transformer hierarchy, employing order-statistical analysis to identify sustained geometric salience. Leveraging these robust scores, HCC transcends simple eviction by introducing a three-tier triage strategy that merges moderately important tokens into retained anchors via nearest-neighbor assignment on the key-vector manifold. This approach preserves essential geometric context that would otherwise be lost. Extensive evaluations on five benchmarks (7-Scenes, NRGBD, ETH3D, Bonn, and KITTI) demonstrate that StreamCacheVGGT sets a new state-of-the-art, delivering superior reconstruction accuracy and long-term stability while strictly adhering to constant-cost constraints.
- Abstract(参考訳): 連続的なビデオストリームから高密度な3次元幾何学を再構築するには、一定のメモリ予算の下で安定した推論が必要である。
既存の$O(1)$フレームワークは、主に ‘pure eviction''パラダイムに依存しており、バイナリトークンの削除と、ローカライズされた単一層スコアリングによる評価ノイズによる、重大な情報破壊に悩まされている。
このようなボトルネックに対処するために,Cross-Layer Consistency-Enhanced Scoring (CLCES) とHybrid Cache Compression (HCC) という2つの相乗的モジュールを通じてキャッシュ管理を再現する,トレーニング不要のフレームワークであるStreamCacheVGTを提案する。
CLCESはTransformer階層のトークン重要トラジェクトリを追跡することでアクティベーションノイズを軽減する。
これらのロバストなスコアを活用して、HCCは3層トリアージ戦略を導入し、キーベクトル多様体上の最近傍の割り当てを通じて、中程度に重要なトークンを保持アンカーにマージする。
このアプローチは、そうでなければ失われるであろう重要な幾何学的文脈を保存する。
7-Scenes, NRGBD, ETH3D, Bonn, KITTI の5つのベンチマークによる大規模な評価は,StreamCacheVGGT が新たな最先端を設定できることを示した。
関連論文リスト
- StructKV: Preserving the Structural Skeleton for Scalable Long-Context Inference [38.75965915663233]
構造対応のKVキャッシュ圧縮フレームワークであるStructKVを提案する。
まず、Global In-Degree Centralityは、ネットワーク奥行きの注意パターンを集約し、グローバルな情報ハブを特定する。
第二に、Dynamic Pivot Detectionは情報理論のメトリクスを使って、圧縮のための最適な層を適応的に見つける。
論文 参考訳(メタデータ) (2026-04-08T07:10:35Z) - LG-HCC: Local Geometry-Aware Hierarchical Context Compression for 3D Gaussian Splatting [77.81227097905865]
アンカーベースの3DGS圧縮スキームは、いくつかの高度な文脈モデルを通してガウスの冗長性を減少させる。
本稿では, アンカープルーニングとエントロピー符号化にアンカー幾何学的相関を組み込んだ3DGSのための局所幾何学的階層型コンテキスト圧縮フレームワークを提案する。
実験の結果、LG-HCCは構造保存の問題を効果的に緩和し、Mip-NeRF360データセット上のScaffold-GSベースラインと比較して最大30.85倍のストレージを削減した。
論文 参考訳(メタデータ) (2026-03-30T13:39:35Z) - STAC: Plug-and-Play Spatio-Temporal Aware Cache Compression for Streaming 3D Reconstruction [16.772404929988507]
ストリーミング入力からの3D再構成には、長期的な時間的一貫性と効率的なメモリ使用の両方が必要である。
STACは大きな因果変換器で3D再構成を行うためのフレームワークである。
実験の結果,STACはメモリ消費を10倍近く削減し,VG 4xによる推論を高速化しながら,最先端の再構築品質を実現することがわかった。
論文 参考訳(メタデータ) (2026-03-18T06:36:46Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - HeteroCache: A Dynamic Retrieval Approach to Heterogeneous KV Cache Compression for Long-Context LLM Inference [14.17979669446161]
トレーニング不要な動的圧縮フレームワークであるHeteroCacheを提案する。
We show that HeteroCache achieves state-of-the-art performance on multiple long-context benchmarks and accelerates decoding by up $3times$ in the original model in the 224K context。
論文 参考訳(メタデータ) (2026-01-20T07:35:06Z) - CSGaussian: Progressive Rate-Distortion Compression and Segmentation for 3D Gaussian Splatting [57.73006852239138]
本稿では,3次元ガウススプラッティングの速度歪み最適化圧縮とセグメンテーションのための最初の統一フレームワークを提案する(3DGS)。
速度歪みに最適化された3DGS圧縮の最近の進歩に触発されたこの研究は、セマンティックラーニングを圧縮パイプラインに統合し、デコーダ側アプリケーションをサポートする。
提案方式は暗黙的ニューラル表現に基づくハイパープライアを特徴とし,色属性と意味属性の両方の効率的なエントロピー符号化を実現する。
論文 参考訳(メタデータ) (2026-01-19T08:21:45Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - Krul: Efficient State Restoration for Multi-turn Conversations with Dynamic Cross-layer KV Sharing [41.792908098945766]
我々は,KVキャッシュの正確かつ効率的な復元を可能にするマルチターンLDM推論システムであるKrulを提案する。
Krulは、レイヤペア間の注目類似性に基づいて圧縮戦略を選択し、再計算ローディングパイプラインを使用してKVキャッシュを復元する。
タイム・ツー・ファースト・トケン(TTFT)の1.5x-2.68倍の削減、KVキャッシュストレージの1.33x-2.35倍の削減を実現している。
論文 参考訳(メタデータ) (2025-07-10T01:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。