論文の概要: 3D Reconstruction with Spatial Memory
- arxiv url: http://arxiv.org/abs/2408.16061v1
- Date: Wed, 28 Aug 2024 18:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 17:54:29.762259
- Title: 3D Reconstruction with Spatial Memory
- Title(参考訳): 空間記憶を用いた3次元再構成
- Authors: Hengyi Wang, Lourdes Agapito,
- Abstract要約: 本稿では,順序付きあるいは順序なしの画像コレクションから高密度な3次元再構成を行う新しいアプローチであるSpann3Rを提案する。
DUSt3Rパラダイムに基づいて構築されたSpann3Rは、トランスフォーマーベースのアーキテクチャを使用して、シーンやカメラパラメータに関する事前の知識を必要とせずに、画像から直接ポイントマップを回帰する。
- 参考スコア(独自算出の注目度): 9.282647987510499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Spann3R, a novel approach for dense 3D reconstruction from ordered or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a transformer-based architecture to directly regress pointmaps from images without any prior knowledge of the scene or camera parameters. Unlike DUSt3R, which predicts per image-pair pointmaps each expressed in its local coordinate frame, Spann3R can predict per-image pointmaps expressed in a global coordinate system, thus eliminating the need for optimization-based global alignment. The key idea of Spann3R is to manage an external spatial memory that learns to keep track of all previous relevant 3D information. Spann3R then queries this spatial memory to predict the 3D structure of the next frame in a global coordinate system. Taking advantage of DUSt3R's pre-trained weights, and further fine-tuning on a subset of datasets, Spann3R shows competitive performance and generalization ability on various unseen datasets and can process ordered image collections in real time. Project page: \url{https://hengyiwang.github.io/projects/spanner}
- Abstract(参考訳): 本稿では,順序付きあるいは順序なしの画像コレクションから高密度な3次元再構成を行う新しいアプローチであるSpann3Rを提案する。
DUSt3Rパラダイムに基づいて構築されたSpann3Rは、トランスフォーマーベースのアーキテクチャを使用して、シーンやカメラパラメータに関する事前の知識を必要とせずに、画像から直接ポイントマップを回帰する。
DUSt3Rは局所座標フレームで表現される画像対点マップ毎に予測するが、Spann3Rはグローバル座標系で表現される画像毎点マップを予測できるため、最適化ベースのグローバルアライメントは不要である。
Spann3Rの鍵となるアイデアは、以前の関連するすべての3D情報の追跡を学習する外部空間メモリを管理することである。
Spann3Rはこの空間メモリをクエリして、グローバル座標系における次のフレームの3D構造を予測する。
DUSt3Rの事前トレーニングされた重量を活用し、データセットのサブセットをさらに微調整することで、さまざまな未知のデータセット上での競合性能と一般化能力を示し、順序づけられたイメージコレクションをリアルタイムで処理できる。
プロジェクトページ: \url{https://hengyiwang.github.io/projects/spanner}
関連論文リスト
- PreF3R: Pose-Free Feed-Forward 3D Gaussian Splatting from Variable-length Image Sequence [3.61512056914095]
可変長の画像列から,PreF3R, Pose-Free Feed-forward 3D再構成を提案する。
PreF3Rは、カメラキャリブレーションの必要性を排除し、正準座標フレーム内の3次元ガウス場を、未提示画像のシーケンスから直接再構成する。
論文 参考訳(メタデータ) (2024-11-25T19:16:29Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - 3D Congealing: 3D-Aware Image Alignment in the Wild [44.254247801001675]
3D Congealingは、意味的に類似したオブジェクトをキャプチャする2D画像の3D対応アライメントの問題である。
形状テンプレートやポーズ,あるいは任意のカメラパラメータを仮定することなく,タスクに対処する一般的なフレームワークを導入する。
我々のフレームワークは、対応マッチング、ポーズ推定、画像編集といった様々なタスクに利用できる。
論文 参考訳(メタデータ) (2024-04-02T17:32:12Z) - CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors Object Detection from Multi-view Images [11.152821406076486]
CN-RMAは多視点画像から3次元屋内物体を検出する新しい手法である。
多視点画像からの3次元物体検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-07T03:59:47Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。