論文の概要: Rethinking the State Update Gate for Long-Sequence Recurrent 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2605.16981v1
- Date: Sat, 16 May 2026 13:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.404236
- Title: Rethinking the State Update Gate for Long-Sequence Recurrent 3D Reconstruction
- Title(参考訳): 長期再発3次元再建のための状態更新ゲートの再考
- Authors: Kejun Ren, Lei Jin, Tianxin Huang, Lianming Xu, Li Wang,
- Abstract要約: 厳格な定メモリ予算の下での3D再構成は、ストリームが進化するにつれて、リカレント状態がどのように更新されるかに焦点をあてる。
5つのベンチマークでTT3Rスタイルのゲートをプロファイルし、構造的ボトルネックを発見します。
我々のゲートは、長いTUM-RGBDポーズシーケンスでATEを51%カットし、ボンのビデオ深度でAbsRelを12.8%削減し、KITTIのロングシーケンスポーズ推定はLongStreamとKeyframe-VOを上回ります。
- 参考スコア(独自算出の注目度): 17.980148618952278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming 3D reconstruction under a strict constant-memory budget hinges on how the recurrent state is updated as the stream evolves. We profile TTT3R-style per-token gates across five benchmarks and discover a structural bottleneck: the gate is intrinsically bounded in magnitude (median $0.31$; never exceeding $0.6$) and nearly frame-invariant, yielding an effective memory horizon of only $\sim$3 frames per state token, which serves as the structural origin of long-sequence drift. We trace this to a missing axis: existing inference-time methods modulate updates only at the per-token, intra-frame level, while the orthogonal frame-level question of \emph{how strongly each frame should contribute to the state} has been treated as content-independent. We close this gap with a scalar frame-level gate $α_t \in (0, 1]$ derived in closed form from frame-to-frame changes of internal features -- a continuous relaxation of classical Simultaneous Localization and Mapping (SLAM) keyframe selection that requires no parameters, no training, and no extra forward pass. Across six benchmarks spanning camera pose, video depth, and 3D reconstruction at sequence lengths up to $4,541$ frames, our gate cuts ATE by $51\%$ on long TUM-RGBD pose sequences, reduces AbsRel by $12.8\%$ on Bonn video depth, and on KITTI long-sequence pose estimation surpasses both LongStream and Keyframe-VO, while retaining strictly constant memory at zero training cost.
- Abstract(参考訳): 厳格な定メモリ予算の下での3D再構成は、ストリームが進化するにつれて、リカレント状態がどのように更新されるかに焦点をあてる。
5つのベンチマークでTT3Rスタイルの1トーケンゲートをプロファイルし、構造的ボトルネックを発見する: ゲートは本質的に等級($0.31$、$0.6$を超えない)で、ほぼフレーム不変であり、1ステートトークンあたりの有効メモリ水平線は$$\sim$3 framesで、長周期ドリフトの構造的起源となっている。
既存の推論時間法は,フレーム単位でのみ更新を変調するが,直交フレームレベルの質問である \emph{how to the state} は内容に依存しないものとして扱われている。
このギャップをスカラーフレームレベルのゲート$α_t \in (0, 1]$で埋める – 内部機能のフレームからフレームへの変更から、クローズドな形式で派生する -- 古典的な同期ローカライゼーションとマッピング(SLAM)キーフレームの選択を継続的に緩和することで、パラメータ、トレーニング、余分なフォワードパスが不要になります。
カメラのポーズ、ビデオ深度、および3D再構成を最大4,541ドルのフレームで行う6つのベンチマークで、我々のゲートカットは、長いTUM-RGBDのポーズシーケンスで511\%、ボンのビデオ深度で12.8\%、KITTIのロングシーケンスポーズはロングストリームとキーフレーム-VOの両方を超越し、トレーニングコストで厳密なメモリを保ちながら、AbsRelを12.8\%削減する。
関連論文リスト
- Attention Itself Could Retrieve.RetrieveVGGT: Training-Free Long Context Streaming 3D Reconstruction via Query-Key Similarity Retrieval [86.05617542701644]
Visual Geometry Grounded Transformer (VGGT)はスケーラブルなTransformerアーキテクチャを通じて3D再構成を行う。
StreamVGGTは因果的にストリーミングを可能にするが、KVキャッシュはフレームとともに線形に成長し、メモリオーバーフローと品質劣化を引き起こす。
本稿では、VGGTのコンテキスト構築を検索問題として定式化する、トレーニング不要なフレームワークRetrieveVGGTを提案する。
論文 参考訳(メタデータ) (2026-05-10T16:41:54Z) - PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference [46.18482046594169]
PackForcingは、単一のH200 GPU上で16 FPSでコヒーレントな2分832x480ビデオを生成する。
わずか4GBのバウンドKVキャッシュを実現し、ゼロショットまたは5秒のクリップでトレーニングされた24倍の時間(5秒から120秒)を効果的に動作させることができる。
論文 参考訳(メタデータ) (2026-03-26T17:59:05Z) - S2GS: Streaming Semantic Gaussian Splatting for Online Scene Understanding and Reconstruction [57.07346645250984]
Streaming Semantic Gaussian Splatting (S2GS) は厳密に因果的かつ漸進的な3D Gaussianセマンティックフィールドフレームワークである。
将来のフレームを活用せず、歴史的フレームを再処理することなく、シーンの幾何学、外観、インスタンスレベルのセマンティクスを継続的に更新する。
S2GSは、ジョイントリコンストラクションとアンダーホールドのベンチマークにおいて、強いオフラインベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2026-03-15T05:48:55Z) - FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT [3.5844726281072448]
StreamVGGTのようなストリーミングビジュアルジオメトリ変換は、強力なオンライン3D知覚を可能にするが、境界のないKVキャッシュの増大に悩まされる。
フレーム駆動型ローリング明示メモリフレームワークであるFrameVGGTを提案し,各フレームのインクリメンタルKVコントリビューションをコヒーレントエビデンスブロックとして扱う。
論文 参考訳(メタデータ) (2026-03-08T15:46:03Z) - OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer [14.628152488797356]
OVGGTはトレーニング不要のフレームワークで、メモリと計算を、シーケンスの長さに関わらず固定予算にバウンドする。
我々は,OVGGTが一定のVRAMエンベロープ内で任意の長さのビデオを処理し,最先端の3D幾何精度を実現していることを示す。
論文 参考訳(メタデータ) (2026-03-06T06:44:17Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - Stand-Alone Inter-Frame Attention in Video Models [164.06137994796487]
フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。
SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
論文 参考訳(メタデータ) (2022-06-14T15:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。