論文の概要: Ray-Aware Pointer Memory with Adaptive Updates for Streaming 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2605.05749v1
- Date: Thu, 07 May 2026 06:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.571897
- Title: Ray-Aware Pointer Memory with Adaptive Updates for Streaming 3D Reconstruction
- Title(参考訳): 適応更新を用いた3次元再構成のためのレイアウェアポインタメモリ
- Authors: Feifei Li, Qi Song, Chi Zhang, Rui Huang,
- Abstract要約: 連続画像ストリームからの3次元再構成には、正確な幾何集約と安定したメモリ管理が必要である。
空間的位置と視線方向の両方を明示的にモデル化した3次元再構成のためのレイアウェア・ポインターメモリを提案する。
われわれのアプローチは、画像ストリームからのスケーラブルでドリフトに耐性のあるオンライン3D再構成のための、原則化されたフレームワークを提供する。
- 参考スコア(独自算出の注目度): 19.132257919770947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense 3D reconstruction from continuous image streams requires both accurate geometric aggregation and stable long-term memory management. Recent feed-forward reconstruction frameworks integrate observations through persistent memory representations, yet most rely primarily on appearance-based similarity when updating memory. Such appearance-driven integration often leads to redundant accumulation of observations and unstable geometry when viewpoint changes occur. In this work, we propose a ray-aware pointer memory for streaming 3D reconstruction that explicitly models both spatial location and viewing direction within a unified memory representation. Each memory pointer stores its 3D position, associated ray direction, and feature embedding, allowing the system to reason jointly about geometric proximity and viewpoint consistency. Based on this representation, we introduce an adaptive pointer update strategy that replaces traditional fusion-based memory compression with a retain-or-replace mechanism. Instead of averaging nearby observations, the system selectively retains informative pointers while discarding redundant ones, preserving distinctive geometric structures while maintaining bounded memory growth. Furthermore, the joint reasoning over spatial distance and ray-direction discrepancy enables the system to distinguish between local redundancy, novel observations, and potential loop revisits in a unified manner. When loop candidates are detected, pose refinement is triggered to enforce global geometric consistency across the reconstruction. Extensive experiments demonstrate that the proposed ray-aware memory design significantly improves long-term reconstruction stability and camera pose accuracy while maintaining efficient streaming inference. Our approach provides a principled framework for scalable and drift-resistant online 3D reconstruction from image streams.
- Abstract(参考訳): 連続画像ストリームからのDense 3D再構成には、正確な幾何集約と安定した長期記憶管理が必要である。
最近のフィードフォワード再構成フレームワークは、永続的なメモリ表現を通して観測を統合するが、ほとんどの場合、メモリ更新時の外観ベースの類似性に依存している。
このような外見駆動の統合はしばしば、視点変化が起こると観測や不安定な幾何学の冗長な蓄積につながる。
本研究では,空間的位置と視野方向の両方を,統一されたメモリ表現内で明示的にモデル化した3次元再構成のためのレイアウェア・ポインターメモリを提案する。
各メモリポインタは、その3D位置、関連する光線方向、特徴埋め込みを格納し、幾何学的近接性や視点整合性について共同で推論することができる。
この表現に基づいて、従来のフュージョンベースのメモリ圧縮をretain-or-replaceメカニズムで置き換える適応ポインタ更新戦略を導入する。
近隣の観測を平均化する代わりに、システムは冗長なものを捨てながら情報ポインターを選択的に保持し、境界メモリ成長を維持しながら特異な幾何学的構造を保存する。
さらに、空間距離と光線方向のずれに対する共同推論により、局所的な冗長性、新しい観測、および電位ループの再検討を統一的に区別することができる。
ループ候補が検出されると、ポーズの洗練がトリガーされ、再構成全体にわたってグローバルな幾何的一貫性が強制される。
広汎な実験により、提案したレイアウェアメモリ設計は、効率的なストリーミング推論を維持しつつ、長期的な再構成安定性を著しく向上し、カメラの精度が向上することを示した。
われわれのアプローチは、画像ストリームからのスケーラブルでドリフトに耐性のあるオンライン3D再構成のための、原則化されたフレームワークを提供する。
関連論文リスト
- GeoRect4D: Geometry-Compatible Generative Rectification for Dynamic Sparse-View 3D Reconstruction [16.448484686109992]
マルチビュービデオからダイナミックな3Dシーンを再構築することは、しばしば幾何学的な崩壊、軌道のドリフト、浮き彫りのアーティファクトに繋がる、非常に不適切である。
最近の試みでは、欠落したコンテンツに幻覚を与える遺伝子前駆体を導入しているが、ナイーブな統合はしばしば構造的ドリフトと時間的不整合を引き起こす。
そこで本稿では, 疎視動的再構成のための新しい統合フレームワークであるGeoRect4Dを提案する。
論文 参考訳(メタデータ) (2026-04-22T17:12:02Z) - AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model [29.087865646035695]
カジュアルキャプチャーからシーンをモデリングするためにはスパースビュー3D再構成が不可欠であるが、非生成的再構築には依然として困難である。
我々は任意のスパース入力から復元するスケーラブルなフレームワークであるAnyReconを提案する。
実験では、不規則な入力、大きな視点ギャップ、長い軌道をまたいだ堅牢でスケーラブルな再構築が示されている。
論文 参考訳(メタデータ) (2026-04-21T17:59:47Z) - Geometric Context Transformer for Streaming 3D Reconstruction [51.19524805829903]
LingBot-Mapは、ストリーミングデータからシーンを再構築するためのフィードフォワード3Dファウンデーションモデルである。
LingBot-Mapの定義的な側面は、アンカーコンテキスト、ポーズ参照ウィンドウ、トラジェクトリメモリを統合した、慎重に設計されたアテンションメカニズムにある。
この設計は、リッチな幾何学的コンテキストを維持しながら、ストリーミング状態をコンパクトに保ち、518 x 378の解像度入力に対して、20FPS程度の安定した効率的な推論を可能にする。
論文 参考訳(メタデータ) (2026-04-15T17:58:13Z) - AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories [78.78355829813793]
既存のメモリベースのアプローチでは、歴史的に再構成された幾何学のアンカービデオをレンダリングすることで、グローバルに再構成された3Dシーンを条件付けすることが多い。
AnchorWeaveは、単一の不整合グローバルメモリを複数のローカルな幾何学的メモリに置き換える、メモリ拡張ビデオ生成フレームワークである。
実験によると、AnchorWeaveは視覚的品質を維持しながら、長期的なシーンの一貫性を著しく向上する。
論文 参考訳(メタデータ) (2026-02-16T17:23:08Z) - Geometry-Aware Rotary Position Embedding for Consistent Video World Model [48.914346802616414]
ViewRopeは、ビデオトランスフォーマーの自己アテンション層に直接カメラの方向を注入するジオメトリ対応のエンコーディングである。
Geometry-Aware Frame-Sparse Attentionは、これらの幾何学的手がかりを利用して、関連する歴史的なフレームに選択的に参加する。
この結果から,ViewRopeは長期的整合性を大幅に向上し,計算コストを低減できることがわかった。
論文 参考訳(メタデータ) (2026-02-08T08:01:16Z) - Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer Memory [72.75478398447396]
我々は,高密度ストリーミング3D再構成を目的としたオンラインフレームワークであるPoint3Rを提案する。
具体的には、現在のシーンの3次元構造に直接関連した空間ポインタメモリを明示的に保持する。
本手法は,訓練コストの低い各種タスクにおいて,競争力や最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-03T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。