論文の概要: Reference Pose Generation for Long-term Visual Localization via Learned
Features and View Synthesis
- arxiv url: http://arxiv.org/abs/2005.05179v4
- Date: Wed, 30 Dec 2020 14:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 20:28:51.029385
- Title: Reference Pose Generation for Long-term Visual Localization via Learned
Features and View Synthesis
- Title(参考訳): 学習特徴とビュー合成による長期視覚定位のための基準ポーズ生成
- Authors: Zichao Zhang, Torsten Sattler, Davide Scaramuzza
- Abstract要約: 本稿では,3次元モデルのレンダリングと実画像の特徴マッチングに基づく参照ポーズを生成するための半自動アプローチを提案する。
我々は、Aachen Day-Nightデータセットの夜間参照ポーズを大幅に改善し、最先端の視覚的ローカライゼーション手法が、オリジナルの参照ポーズによって予測されるよりも優れた(最大47%の)性能を示すことを示した。
- 参考スコア(独自算出の注目度): 88.80710311624101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Localization is one of the key enabling technologies for autonomous
driving and augmented reality. High quality datasets with accurate 6
Degree-of-Freedom (DoF) reference poses are the foundation for benchmarking and
improving existing methods. Traditionally, reference poses have been obtained
via Structure-from-Motion (SfM). However, SfM itself relies on local features
which are prone to fail when images were taken under different conditions,
e.g., day/ night changes. At the same time, manually annotating feature
correspondences is not scalable and potentially inaccurate. In this work, we
propose a semi-automated approach to generate reference poses based on feature
matching between renderings of a 3D model and real images via learned features.
Given an initial pose estimate, our approach iteratively refines the pose based
on feature matches against a rendering of the model from the current pose
estimate. We significantly improve the nighttime reference poses of the popular
Aachen Day-Night dataset, showing that state-of-the-art visual localization
methods perform better (up to $47\%$) than predicted by the original reference
poses. We extend the dataset with new nighttime test images, provide
uncertainty estimates for our new reference poses, and introduce a new
evaluation criterion. We will make our reference poses and our framework
publicly available upon publication.
- Abstract(参考訳): 視覚的ローカライゼーションは、自動運転と拡張現実のための重要な技術のひとつだ。
正確な6自由度(DoF)参照ポーズを持つ高品質データセットは、既存のメソッドのベンチマークと改善の基盤である。
伝統的に、参照ポーズはStructure-from-Motion (SfM)を介して得られる。
しかし、SfM自体は、例えば昼夜の変化など、異なる条件下で撮影された画像が失敗しがちな局所的な特徴に依存している。
同時に、手動でアノテートする機能対応はスケーラブルではなく、潜在的に不正確である。
本研究では,3次元モデルのレンダリングと実画像との特徴マッチングに基づく参照ポーズを生成するための半自動手法を提案する。
最初のポーズ推定を仮定すると、現在のポーズ推定からモデルのレンダリングに対して、特徴マッチングに基づいてポーズを反復的に洗練します。
我々は,一般的なAachen Day-Nightデータセットの夜間参照ポーズを大幅に改善し,現在最先端の視覚的ローカライゼーション手法がオリジナルの参照ポーズによって予測されるよりも優れた(最大4,7\%)ことを示す。
我々は、データセットを新しい夜間テスト画像で拡張し、新しい参照ポーズに対する不確実性推定を提供し、新しい評価基準を導入する。
私たちは、リファレンスのポーズとフレームワークを公開時に公開します。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。
この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文 参考訳(メタデータ) (2023-11-30T18:52:29Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - TempCLR: Reconstructing Hands via Time-Coherent Contrastive Learning [30.823358555054856]
本研究では,3次元手再構成における構造化回帰課題に対して,時間コヒーレントなコントラスト学習手法であるTempCLRを紹介する。
本フレームワークでは,時間的一貫性を拡張方式で考慮し,時間的方向に沿ったポーズの違いを考慮に入れている。
本手法は, HO-3D と FreiHAND のデータセット上で, PA-V2V を 15.9% と 7.6% に改善する。
論文 参考訳(メタデータ) (2022-09-01T14:19:05Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z) - Novel Object Viewpoint Estimation through Reconstruction Alignment [45.16865218423492]
我々は、新しい対象の視点を推定するために再構成と整合性アプローチを学ぶ。
具体的には、2つのネットワークを学習することを提案する。最初の1つは3次元幾何学的特徴ボトルネックに画像をマッピングし、画像から画像への変換損失を学習する。
テスト時に、我々のモデルは、テスト画像のボトルネック特徴と参照画像とを最もよく一致させる相対変換を見つけます。
論文 参考訳(メタデータ) (2020-06-05T17:58:14Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。