論文の概要: MeshLoc: Mesh-Based Visual Localization
- arxiv url: http://arxiv.org/abs/2207.10762v1
- Date: Thu, 21 Jul 2022 21:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:56:44.917587
- Title: MeshLoc: Mesh-Based Visual Localization
- Title(参考訳): MeshLoc: メッシュベースのビジュアルローカライゼーション
- Authors: Vojtech Panek, Zuzana Kukelova and Torsten Sattler
- Abstract要約: シーン表現を構築するために,データベースイメージ間のマッチング機能を必要としない,高密度な3Dメッシュに基づく,より柔軟な代替手段を模索する。
驚くべきことに、ニューラルネットワークのレンダリングステージなしで、これらのメッシュのレンダリングの特徴を抽出するときに、競合的な結果が得られる。
以上の結果から,高密度な3次元モデルに基づく表現は,既存の表現の代替として有望なものであり,今後の研究にとって興味深い,挑戦的な方向性を示すものと考えられる。
- 参考スコア(独自算出の注目度): 54.731309449883284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual localization, i.e., the problem of camera pose estimation, is a
central component of applications such as autonomous robots and augmented
reality systems. A dominant approach in the literature, shown to scale to large
scenes and to handle complex illumination and seasonal changes, is based on
local features extracted from images. The scene representation is a sparse
Structure-from-Motion point cloud that is tied to a specific local feature.
Switching to another feature type requires an expensive feature matching step
between the database images used to construct the point cloud. In this work, we
thus explore a more flexible alternative based on dense 3D meshes that does not
require features matching between database images to build the scene
representation. We show that this approach can achieve state-of-the-art
results. We further show that surprisingly competitive results can be obtained
when extracting features on renderings of these meshes, without any neural
rendering stage, and even when rendering raw scene geometry without color or
texture. Our results show that dense 3D model-based representations are a
promising alternative to existing representations and point to interesting and
challenging directions for future research.
- Abstract(参考訳): 視覚の定位、すなわちカメラのポーズ推定の問題は、自律ロボットや拡張現実システムといったアプリケーションの中心的なコンポーネントである。
文学における支配的なアプローチは、画像から抽出された局所的な特徴に基づいて、大きなシーンにスケールし、複雑な照明と季節変化を扱うことである。
シーン表現は、特定のローカル機能に結びついているスパースなStructure-from-Motionポイントクラウドである。
別の機能タイプに切り替えるには、ポイントクラウドを構築するために使用されるデータベースイメージ間の、高価な機能マッチングステップが必要になる。
そこで本研究では,シーン表現を構築するためにデータベース画像間の特徴マッチングを必要とせず,より柔軟な3dメッシュを探索する。
このアプローチが最先端の成果を達成できることを示します。
さらに,ニューラルネットワークのレンダリングステージを必要とせずに,メッシュのレンダリング上で特徴を抽出する場合や,色彩やテクスチャを伴わない生のシーンジオメトリをレンダリングする場合においても,驚くほど競争力のある結果が得られることを示した。
以上より,高密度な3dモデルに基づく表現は,既存の表現に代わる有望な選択肢であり,今後の研究に向けた興味深く挑戦的な方向性を示す。
関連論文リスト
- Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - MeshVPR: Citywide Visual Place Recognition Using 3D Meshes [18.168206222895282]
メッシュベースのシーン表現は、大規模な階層的な視覚的ローカライゼーションパイプラインを簡素化するための有望な方向を提供する。
既存の研究は、視覚的ローカライゼーションのためのメッシュの実現可能性を示しているが、視覚的位置認識においてそれらから生成された合成データベースを使用することによる影響は、明らかにされていない。
実世界のドメインと合成ドメインのギャップを埋めるために、軽量な特徴アライメントフレームワークを利用する新しいVPRパイプラインであるMeshVPRを提案する。
論文 参考訳(メタデータ) (2024-06-04T20:45:53Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - HSCNet++: Hierarchical Scene Coordinate Classification and Regression
for Visual Localization with Transformer [23.920690073252636]
本稿では,1枚のRGB画像から画素シーン座標を粗い方法で予測する階層的なシーン座標ネットワークを提案する。
提案手法は,HSCNetの拡張であり,大規模環境にロバストにスケールするコンパクトモデルの訓練を可能にする。
論文 参考訳(メタデータ) (2023-05-05T15:00:14Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - TopNet: Transformer-based Object Placement Network for Image Compositing [43.14411954867784]
背景画像の局所的な手がかりは、特定の位置/スケールにオブジェクトを置くことの互換性を決定するために重要である。
本稿では,トランスモジュールを用いてオブジェクト特徴とすべてのローカル背景特徴の相関関係を学習することを提案する。
我々の新しい定式化は、1つのネットワークフォワードパスにおけるすべての位置/スケールの組み合わせの妥当性を示す3Dヒートマップを生成する。
論文 参考訳(メタデータ) (2023-04-06T20:58:49Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。