論文の概要: SACReg: Scene-Agnostic Coordinate Regression for Visual Localization
- arxiv url: http://arxiv.org/abs/2307.11702v2
- Date: Fri, 28 Jul 2023 10:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 15:11:30.325464
- Title: SACReg: Scene-Agnostic Coordinate Regression for Visual Localization
- Title(参考訳): sacreg:視覚局所化のためのシーン非依存座標回帰
- Authors: Jerome Revaud, Yohann Cabon, Romain Br\'egier, JongMin Lee and
Philippe Weinzaepfel
- Abstract要約: シーン座標回帰(SCR)は、与えられた画像のピクセル毎に3D座標を予測する。
本稿では,単一の汎用SCRモデルを一度トレーニングして,新しいテストシーンにデプロイする,という新しいパラダイムを提案する。
私たちはCambridgeローカライゼーションベンチマークに新たな技術状況を設定し、機能マッチングベースのアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 16.79390271249552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene coordinates regression (SCR), i.e., predicting 3D coordinates for every
pixel of a given image, has recently shown promising potential. However,
existing methods remain mostly scene-specific or limited to small scenes and
thus hardly scale to realistic datasets. In this paper, we propose a new
paradigm where a single generic SCR model is trained once to be then deployed
to new test scenes, regardless of their scale and without further finetuning.
For a given query image, it collects inputs from off-the-shelf image retrieval
techniques and Structure-from-Motion databases: a list of relevant database
images with sparse pointwise 2D-3D annotations. The model is based on the
transformer architecture and can take a variable number of images and sparse
2D-3D annotations as input. It is trained on a few diverse datasets and
significantly outperforms other scene regression approaches on several
benchmarks, including scene-specific models, for visual localization. In
particular, we set a new state of the art on the Cambridge localization
benchmark, even outperforming feature-matching-based approaches.
- Abstract(参考訳): シーン座標回帰(SCR)、すなわち、ある画像の各ピクセルの3D座標を予測することは、最近、有望な可能性を示している。
しかし、既存の手法はほとんどシーン固有のものであり、小さなシーンに限定されているため、現実的なデータセットにはスケールしにくい。
本稿では,1つの汎用SCRモデルを一度訓練して,そのスケールによらず,さらに微調整を行わずに新しいテストシーンに展開する,新しいパラダイムを提案する。
与えられた問合せ画像に対して、オフ・ザ・シェルフの画像検索技術とstructure-from-motionデータベースから入力を収集する。
このモデルはトランスアーキテクチャに基づいており、可変数の画像とスパース2D-3Dアノテーションを入力として取り込むことができる。
さまざまなデータセットでトレーニングされ、視覚的なローカライゼーションのために、シーン固有のモデルを含むいくつかのベンチマークで、他のシーン回帰アプローチを著しく上回っている。
特に、ケンブリッジのローカライゼーションベンチマークに新しい技術状況を設定し、機能マッチングベースのアプローチよりも優れています。
関連論文リスト
- Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - HSCNet++: Hierarchical Scene Coordinate Classification and Regression
for Visual Localization with Transformer [23.920690073252636]
本稿では,1枚のRGB画像から画素シーン座標を粗い方法で予測する階層的なシーン座標ネットワークを提案する。
提案手法は,HSCNetの拡張であり,大規模環境にロバストにスケールするコンパクトモデルの訓練を可能にする。
論文 参考訳(メタデータ) (2023-05-05T15:00:14Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Learning Camera Localization via Dense Scene Matching [45.0957383562443]
カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。
最近の学習に基づくアプローチは、構造を特定の畳み込みニューラルネットワーク(CNN)にエンコードする
濃密マッチング(DSM)を用いた新しいカメラローカライズ手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T03:47:42Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。