論文の概要: Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer Memory
- arxiv url: http://arxiv.org/abs/2507.02863v1
- Date: Thu, 03 Jul 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.883954
- Title: Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer Memory
- Title(参考訳): Point3R:空間ポインタメモリによる3次元再構成
- Authors: Yuqi Wu, Wenzhao Zheng, Jie Zhou, Jiwen Lu,
- Abstract要約: 我々は,高密度ストリーミング3D再構成を目的としたオンラインフレームワークであるPoint3Rを提案する。
具体的には、現在のシーンの3次元構造に直接関連した空間ポインタメモリを明示的に保持する。
本手法は,訓練コストの低い各種タスクにおいて,競争力や最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 72.75478398447396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense 3D scene reconstruction from an ordered sequence or unordered image collections is a critical step when bringing research in computer vision into practical scenarios. Following the paradigm introduced by DUSt3R, which unifies an image pair densely into a shared coordinate system, subsequent methods maintain an implicit memory to achieve dense 3D reconstruction from more images. However, such implicit memory is limited in capacity and may suffer from information loss of earlier frames. We propose Point3R, an online framework targeting dense streaming 3D reconstruction. To be specific, we maintain an explicit spatial pointer memory directly associated with the 3D structure of the current scene. Each pointer in this memory is assigned a specific 3D position and aggregates scene information nearby in the global coordinate system into a changing spatial feature. Information extracted from the latest frame interacts explicitly with this pointer memory, enabling dense integration of the current observation into the global coordinate system. We design a 3D hierarchical position embedding to promote this interaction and design a simple yet effective fusion mechanism to ensure that our pointer memory is uniform and efficient. Our method achieves competitive or state-of-the-art performance on various tasks with low training costs. Code is available at: https://github.com/YkiWu/Point3R.
- Abstract(参考訳): コンピュータビジョンの研究を現実的なシナリオに持ち込む上では,順序づけられたシーケンスや未順序の画像コレクションから3Dシーンを再現することが重要なステップである。
DUSt3Rが導入したパラダイムに従って、画像対を密集して共有座標系に統一する手法は暗黙のメモリを保持し、より多くの画像から高密度な3D再構成を実現する。
しかし、そのような暗黙記憶は容量が限られており、初期のフレームの情報損失に悩まされる可能性がある。
我々は,高密度ストリーミング3D再構成を目的としたオンラインフレームワークであるPoint3Rを提案する。
具体的には、現在のシーンの3次元構造に直接関連した空間ポインタメモリを明示的に保持する。
このメモリの各ポインタは、特定の3D位置を割り当てられ、グローバル座標系近傍のシーン情報を変化空間特徴に集約する。
最新のフレームから抽出された情報は、このポインタメモリと明示的に相互作用し、現在の観測をグローバル座標系に密に統合することができる。
我々は、この相互作用を促進するために3次元階層的な位置埋め込みを設計し、ポインタメモリが均一で効率的なことを保証するために、シンプルで効果的な融合機構を設計する。
本手法は,訓練コストの低い各種タスクにおいて,競争力や最先端のパフォーマンスを実現する。
コードは、https://github.com/YkiWu/Point3R.comで入手できる。
関連論文リスト
- MUSt3R: Multi-view Network for Stereo 3D Reconstruction [11.61182864709518]
本稿では,DUSt3Rのペアから複数のビューへの拡張を提案する。
計算複雑性を低減できる多層メモリ機構でモデルを拡張します。
このフレームワークは、オフラインとオンラインの両方で3D再構成を実行するように設計されているため、SfMとビジュアルSLAMシナリオにシームレスに適用できる。
論文 参考訳(メタデータ) (2025-03-03T15:36:07Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - 3D Reconstruction with Spatial Memory [9.282647987510499]
本稿では,順序付きあるいは順序なしの画像コレクションから高密度な3次元再構成を行う新しいアプローチであるSpann3Rを提案する。
DUSt3Rパラダイムに基づいて構築されたSpann3Rは、トランスフォーマーベースのアーキテクチャを使用して、シーンやカメラパラメータに関する事前の知識を必要とせずに、画像から直接ポイントマップを回帰する。
論文 参考訳(メタデータ) (2024-08-28T18:01:00Z) - Memory-based Adapters for Online 3D Scene Perception [71.71645534899905]
従来の3Dシーン認識手法はオフラインである。
本稿では,3次元シーン認識モデルのバックボーンのためのアダプタベースのプラグアンドプレイモジュールを提案する。
私たちのアダプタは、さまざまなタスクのメインストリームのオフラインアーキテクチャに簡単に挿入でき、オンラインタスクのパフォーマンスを大幅に向上できます。
論文 参考訳(メタデータ) (2024-03-11T17:57:41Z) - Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation [19.973034777285218]
本稿では,再構成中の幾何学的表面を直接操作する,新しい融合対応3D点畳み込み法を提案する。
グローバルに,オンラインで再構成された3Dポイントを漸進的に増大する座標間隔木にコンパイルする。
我々は,グローバルツリーの高速クエリによる構築の恩恵を受けるオクツリーを用いて,各地点の周辺情報を維持する。
論文 参考訳(メタデータ) (2020-03-13T12:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。