論文の概要: SACReg: Scene-Agnostic Coordinate Regression for Visual Localization
- arxiv url: http://arxiv.org/abs/2307.11702v3
- Date: Thu, 30 Nov 2023 11:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:25:23.344038
- Title: SACReg: Scene-Agnostic Coordinate Regression for Visual Localization
- Title(参考訳): sacreg:視覚局所化のためのシーン非依存座標回帰
- Authors: Jerome Revaud, Yohann Cabon, Romain Br\'egier, JongMin Lee and
Philippe Weinzaepfel
- Abstract要約: 本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
- 参考スコア(独自算出の注目度): 16.866303169903237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene coordinates regression (SCR), i.e., predicting 3D coordinates for every
pixel of a given image, has recently shown promising potential. However,
existing methods remain limited to small scenes memorized during training, and
thus hardly scale to realistic datasets and scenarios. In this paper, we
propose a generalized SCR model trained once to be deployed in new test scenes,
regardless of their scale, without any finetuning. Instead of encoding the
scene coordinates into the network weights, our model takes as input a database
image with some sparse 2D pixel to 3D coordinate annotations, extracted from
e.g. off-the-shelf Structure-from-Motion or RGB-D data, and a query image for
which are predicted a dense 3D coordinate map and its confidence, based on
cross-attention. At test time, we rely on existing off-the-shelf image
retrieval systems and fuse the predictions from a shortlist of relevant
database images w.r.t. the query. Afterwards camera pose is obtained using
standard Perspective-n-Point (PnP). Starting from selfsupervised CroCo
pretrained weights, we train our model on diverse datasets to ensure
generalizabilty across various scenarios, and significantly outperform other
scene regression approaches, including scene-specific models, on multiple
visual localization benchmarks. Finally, we show that the database
representation of images and their 2D-3D annotations can be highly compressed
with negligible loss of localization performance.
- Abstract(参考訳): シーン座標回帰(SCR)、すなわち、ある画像の各ピクセルの3D座標を予測することは、最近、有望な可能性を示している。
しかし、既存の手法はトレーニング中に記憶された小さなシーンに限られており、現実的なデータセットやシナリオには拡張できない。
本稿では,一度トレーニングしたscrモデルを,そのスケールに関係なく,微調整することなく,新たなテストシーンにデプロイすることを提案する。
ネットワークの重み付けにシーン座標をエンコードする代わりに,本モデルでは,オフザ・ザ・シェルフ構造から抽出した2dピクセルから3d座標アノテーションへのばらばらなデータベース画像と,密集した3d座標マップとその信頼度をクロスアテンションに基づいて予測したクエリ画像を入力する。
テスト時には既存のオフ・ザ・シェルフ画像検索システムに頼り、関連するデータベース画像のショートリストからクエリーの予測を融合する。
その後、pnp(standard perspective-n-point)を用いてカメラポーズを得る。
自己教師付きcrocoプリトレーニングウェイトから始まり、さまざまなシナリオの汎用性を確保するために、さまざまなデータセットでモデルをトレーニングし、複数の視覚的ローカライゼーションベンチマークで、シーン固有のモデルを含む他のシーン回帰アプローチを著しく上回っています。
最後に,画像のデータベース表現とその2d-3dアノテーションは,ローカライズ性能を損なうことなく高度に圧縮できることを示す。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization [1.4466437171584356]
3D Gaussian Splatting (3DGS) は、空間的特徴を持つ3次元幾何学とシーンの外観の両方をコンパクトに符号化することができる。
モデルの空間的理解を改善するために,高密度キーポイント記述子を3DGSに蒸留することを提案する。
提案手法はNeRFMatchやPNeRFLocなど,最先端のニューラル・レンダー・ポース(NRP)法を超越した手法である。
論文 参考訳(メタデータ) (2024-09-24T23:18:32Z) - GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。
本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。
提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:59:50Z) - HSCNet++: Hierarchical Scene Coordinate Classification and Regression
for Visual Localization with Transformer [23.920690073252636]
本稿では,1枚のRGB画像から画素シーン座標を粗い方法で予測する階層的なシーン座標ネットワークを提案する。
提案手法は,HSCNetの拡張であり,大規模環境にロバストにスケールするコンパクトモデルの訓練を可能にする。
論文 参考訳(メタデータ) (2023-05-05T15:00:14Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Learning Camera Localization via Dense Scene Matching [45.0957383562443]
カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。
最近の学習に基づくアプローチは、構造を特定の畳み込みニューラルネットワーク(CNN)にエンコードする
濃密マッチング(DSM)を用いた新しいカメラローカライズ手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T03:47:42Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。