論文の概要: Visual Localization using Imperfect 3D Models from the Internet
- arxiv url: http://arxiv.org/abs/2304.05947v1
- Date: Wed, 12 Apr 2023 16:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:25:09.711069
- Title: Visual Localization using Imperfect 3D Models from the Internet
- Title(参考訳): インターネットからの不完全3次元モデルを用いた視覚定位
- Authors: Vojtech Panek, Zuzana Kukelova, Torsten Sattler
- Abstract要約: 本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
- 参考スコア(独自算出の注目度): 54.731309449883284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual localization is a core component in many applications, including
augmented reality (AR). Localization algorithms compute the camera pose of a
query image w.r.t. a scene representation, which is typically built from
images. This often requires capturing and storing large amounts of data,
followed by running Structure-from-Motion (SfM) algorithms. An interesting, and
underexplored, source of data for building scene representations are 3D models
that are readily available on the Internet, e.g., hand-drawn CAD models, 3D
models generated from building footprints, or from aerial images. These models
allow to perform visual localization right away without the time-consuming
scene capturing and model building steps. Yet, it also comes with challenges as
the available 3D models are often imperfect reflections of reality. E.g., the
models might only have generic or no textures at all, might only provide a
simple approximation of the scene geometry, or might be stretched. This paper
studies how the imperfections of these models affect localization accuracy. We
create a new benchmark for this task and provide a detailed experimental
evaluation based on multiple 3D models per scene. We show that 3D models from
the Internet show promise as an easy-to-obtain scene representation. At the
same time, there is significant room for improvement for visual localization
pipelines. To foster research on this interesting and challenging task, we
release our benchmark at v-pnk.github.io/cadloc.
- Abstract(参考訳): ビジュアルローカライゼーションは、拡張現実(ar)を含む多くのアプリケーションの中核コンポーネントである。
ローカライゼーションアルゴリズムは、通常画像から構築されるシーン表現のクエリ画像w.r.t.のカメラポーズを計算する。
これは多くの場合、大量のデータをキャプチャして保存し、続いてStructure-from-Motion (SfM)アルゴリズムを実行する必要がある。
興味深い、未調査のシーン表現のためのデータソースは、手描きのcadモデル、ビルの足跡から生成された3dモデル、航空画像など、インターネット上で容易に利用できる3dモデルである。
これらのモデルは、時間を要するシーンをキャプチャし、構築ステップをモデル化することなく、すぐに視覚的なローカライゼーションを実行できる。
しかし、利用可能な3dモデルはしばしば不完全な現実を反映しているため、課題もある。
例えば、モデルは総称的あるいは全くテクスチャを持たない場合や、シーン幾何学の単純な近似のみを提供する場合、あるいは拡張される場合などである。
本稿では,これらのモデルの欠陥が局所化精度に与える影響について検討する。
このタスクのための新しいベンチマークを作成し、シーン毎に複数の3Dモデルに基づいて詳細な実験評価を行う。
インターネット上の3dモデルは、目立たないシーンの表現として約束されている。
同時に、視覚的なローカライゼーションパイプラインの改善の余地も大きい。
この興味深く挑戦的なタスクの研究を促進するために、我々はベンチマークをv-pnk.github.io/cadlocでリリースします。
関連論文リスト
- CAT3D: Create Anything in 3D with Multi-View Diffusion Models [87.80820708758317]
CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。
CAT3Dは1分で3Dシーン全体を作成できる。
論文 参考訳(メタデータ) (2024-05-16T17:59:05Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。