論文の概要: FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT
- arxiv url: http://arxiv.org/abs/2603.07690v1
- Date: Sun, 08 Mar 2026 15:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.024811
- Title: FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT
- Title(参考訳): FrameVGGT:ストリーミングVGGTのためのフレームエビデンスローリングメモリ
- Authors: Zhisong Xu, Takeshi Oishi,
- Abstract要約: StreamVGGTのようなストリーミングビジュアルジオメトリ変換は、強力なオンライン3D知覚を可能にするが、境界のないKVキャッシュの増大に悩まされる。
フレーム駆動型ローリング明示メモリフレームワークであるFrameVGGTを提案し,各フレームのインクリメンタルKVコントリビューションをコヒーレントエビデンスブロックとして扱う。
- 参考スコア(独自算出の注目度): 3.5844726281072448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming Visual Geometry Transformers such as StreamVGGT enable strong online 3D perception but suffer from unbounded KV-cache growth, which limits deployment over long streams. We revisit bounded-memory streaming from the perspective of geometric support. In geometry-driven reasoning, memory quality depends not only on how many tokens are retained, but also on whether the retained memory still preserves sufficiently coherent local support. This suggests that token-level retention may become less suitable under fixed budgets, as it can thin the evidence available within each contributing frame and make subsequent fusion more sensitive to weakly aligned history. Motivated by this observation, we propose FrameVGGT, a frame-driven rolling explicit-memory framework that treats each frame's incremental KV contribution as a coherent evidence block. FrameVGGT summarizes each block into a compact prototype and maintains a fixed-capacity mid-term bank of complementary frame blocks under strict budgets, with an optional lightweight anchor tier for rare prolonged degradation. Across long-sequence 3D reconstruction, video depth estimation, and camera pose benchmarks, FrameVGGT achieves favorable accuracy--memory trade-offs under bounded memory, while maintaining more stable geometry over long streams.
- Abstract(参考訳): StreamVGGTのようなストリーミングビジュアルジオメトリ変換は、強力なオンライン3D知覚を可能にするが、長いストリームへのデプロイメントを制限する、無制限なKVキャッシュ成長に悩まされる。
我々は幾何学的サポートの観点から境界メモリストリーミングを再考する。
幾何学的推論では、メモリの品質はトークンの数だけでなく、保持メモリが十分な一貫性のあるローカルサポートを保持するかどうかにも依存する。
このことは、トークンレベルの保持が固定された予算の下では、各コントリビューションフレームで利用可能な証拠を薄くし、後続の融合を弱く整列した歴史に対してより敏感にする可能性があることを示唆している。
そこで本研究では,各フレームのインクリメンタルKVコントリビューションをコヒーレントエビデンスブロックとして扱う,フレーム駆動のローリング明示メモリフレームワークであるFrameVGGTを提案する。
FrameVGGTは、各ブロックをコンパクトなプロトタイプにまとめ、厳格な予算の下で補足フレームブロックの固定容量中期銀行を維持し、稀な長期劣化のためのオプションの軽量アンカー層を持つ。
FrameVGTは、長時間の3D再構成、ビデオ深度推定、カメラポーズベンチマークの他、バウンドメモリ下でのメモリトレードオフを良好に達成し、長いストリームよりも安定した幾何を維持している。
関連論文リスト
- OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer [14.628152488797356]
OVGGTはトレーニング不要のフレームワークで、メモリと計算を、シーケンスの長さに関わらず固定予算にバウンドする。
我々は,OVGGTが一定のVRAMエンベロープ内で任意の長さのビデオを処理し,最先端の3D幾何精度を実現していることを示す。
論文 参考訳(メタデータ) (2026-03-06T06:44:17Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression [20.18561757219652]
XStreamVGGTは、プルニングと量子化をシームレスに統合し、KVキャッシュを体系的に圧縮するチューニング不要のアプローチである。
XStreamVGGTは、ほとんど無視可能なパフォーマンス劣化を実現し、メモリ使用量を4.42$times$で大幅に削減する。
論文 参考訳(メタデータ) (2026-02-25T11:02:02Z) - Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization [83.406036390582]
Quant VideoGen(QVG)は、自動回帰ビデオ拡散モデルのためのトレーニングフリーなKVキャッシュ量子化フレームワークである。
これにより、KVメモリを最大7.0倍に削減できる。
生成品質において、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-03T00:54:32Z) - XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression [20.18561757219652]
XStreamVGGTは、ジョイントプルーニングと量子化によってKVキャッシュを圧縮するチューニング不要のアプローチである。
我々は,XStreamVGTがメモリ使用量を大幅に削減しつつ,ほとんど無視可能な性能劣化を実現することを示す。
論文 参考訳(メタデータ) (2026-01-03T14:59:50Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models [63.99949971803903]
ビデオ生成のための次フレーム(または次フレーム)予測モデルをトレーニングするためのニューラルネットワーク構造であるFramePackを提案する。
FramePackは入力フレームコンテキストをフレーム単位の重要度で圧縮し、より多くのフレームを固定されたコンテキスト長内にエンコードする。
既存のビデオ拡散モデルをFramePackで微調整できることを示し、異なるパッキングスケジュールの違いを分析する。
論文 参考訳(メタデータ) (2025-04-17T04:02:31Z) - Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。