論文の概要: GHOST: Geometry-Hierarchical Online Streaming Token Eviction for Efficient 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2605.15852v1
- Date: Fri, 15 May 2026 11:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.261
- Title: GHOST: Geometry-Hierarchical Online Streaming Token Eviction for Efficient 3D Reconstruction
- Title(参考訳): GHOST:高能率3次元再構成のための幾何学的階層的オンラインストリーミングToken Eviction
- Authors: Leyang Chen, Junyi Wu, Zhiteng Li, Yulun Zhang,
- Abstract要約: 長い単眼ビデオシーケンスから3D再構成をストリーミングするには、キーバリュー(KV)キャッシュを維持する必要がある。
GHOSTは、トレーニング不要なKVキャッシュ管理フレームワークで、モデル独自の3Dジオメトリ出力を利用して、冗長トークンをオンラインで排除する。
様々なベンチマーク実験により、GHOSTはKVキャッシュをほぼ半分に切断し、1.75倍高速な推論を実現しながら、優れた再構築品質を保っていることが示された。
- 参考スコア(独自算出の注目度): 23.110378663548335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming 3D reconstruction from long monocular video sequences requires maintaining a key-value (KV) cache that grows linearly with sequence length, creating a severe memory bottleneck. Existing approaches either truncate the cache to a fixed set of anchor frames, leading to reconstruction quality degradation, or rely on attention-score heuristics that are agnostic to 3D scene structure, failing to preserve geometrically valuable tokens. To address these problems, we present GHOST (Geometry-Hierarchical Online Streaming Token Eviction), a training-free KV cache management framework that exploits the model's own 3D geometry outputs to evict redundant tokens online. GHOST introduces three mutually reinforcing innovations: a hierarchical dual-level importance scoring scheme, a privilege mechanism that protects special tokens from eviction, and a cosine-similarity-guided layer-wise budget allocation. Experiments on various benchmarks show that GHOST preserves excellent reconstruction quality while cutting the KV cache by nearly half and delivering 1.75x faster inference compared to state-of-the-art methods. Our code is available at https://github.com/lokiniuniu/GHOST.
- Abstract(参考訳): 長い単眼ビデオシーケンスから3D再構成をストリーミングするには、キー値(KV)キャッシュを維持する必要がある。
既存のアプローチでは、キャッシュを固定されたアンカーフレームに切り離し、復元品質の劣化につながるか、3Dシーン構造に依存しない注目スコアヒューリスティックに依存し、幾何学的に価値のあるトークンを保存できない。
このような問題に対処するために、GHOST(Geometry-Hierarchical Online Streaming Token Eviction)という、トレーニング不要なKVキャッシュ管理フレームワークを紹介します。
GHOSTは、階層的な2段階の重要度スコアリングスキーム、特別なトークンを排除から保護する特権メカニズム、コサイン類似性に富んだ階層的予算配分の3つの相互強化技術を導入している。
様々なベンチマーク実験により、GHOSTはKVキャッシュをほぼ半分に切断し、最先端の手法に比べて1.75倍高速な推論を実現する一方で、優れた再構築品質を保っていることが示された。
私たちのコードはhttps://github.com/lokiniuniu/GHOST.comで公開されています。
関連論文リスト
- StreamCacheVGGT: Streaming Visual Geometry Transformers with Robust Scoring and Hybrid Cache Compression [39.0869112189715]
StreamCacheVGTは、キャッシュ管理を再定義するトレーニング不要のフレームワークである。
一定のコストの制約に厳格に固執しつつ、より優れた復元精度と長期安定を提供する。
論文 参考訳(メタデータ) (2026-04-16T17:12:10Z) - STAC: Plug-and-Play Spatio-Temporal Aware Cache Compression for Streaming 3D Reconstruction [16.772404929988507]
ストリーミング入力からの3D再構成には、長期的な時間的一貫性と効率的なメモリ使用の両方が必要である。
STACは大きな因果変換器で3D再構成を行うためのフレームワークである。
実験の結果,STACはメモリ消費を10倍近く削減し,VG 4xによる推論を高速化しながら,最先端の再構築品質を実現することがわかった。
論文 参考訳(メタデータ) (2026-03-18T06:36:46Z) - Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation [58.37682525044409]
Rewis3dは、フィードフォワード3D再構成の最近の進歩を活用し、2D画像上の弱い教師付きセマンティックセグメンテーションを著しく改善するフレームワークである。
Rewis3dはスパース監視における最先端のパフォーマンスを達成し、ラベルの追加や推論オーバーヘッドを必要とせずに既存のアプローチを2~7%上回ることを示す。
論文 参考訳(メタデータ) (2026-03-06T15:25:20Z) - OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer [14.628152488797356]
OVGGTはトレーニング不要のフレームワークで、メモリと計算を、シーケンスの長さに関わらず固定予算にバウンドする。
我々は,OVGGTが一定のVRAMエンベロープ内で任意の長さのビデオを処理し,最先端の3D幾何精度を実現していることを示す。
論文 参考訳(メタデータ) (2026-03-06T06:44:17Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects [58.38338242973447]
OnlineSplatterは、RGBフレームから直接高品質でオブジェクト中心の3Dガウシアンを生成する新しいフレームワークである。
提案手法は,第1フレームを用いて再構成をアンカーし,高密度ガウス原始体を通して対象表現を漸進的に洗練する。
我々のコアコントリビューションは、潜伏した外見幾何学キーと明示的な方向キーを組み合わせたデュアルキーメモリモジュールです。
論文 参考訳(メタデータ) (2025-10-23T14:37:25Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。