論文の概要: Convolutional Cross-View Pose Estimation
- arxiv url: http://arxiv.org/abs/2303.05915v3
- Date: Fri, 22 Dec 2023 09:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 18:54:03.145931
- Title: Convolutional Cross-View Pose Estimation
- Title(参考訳): 畳み込み型クロスビューポーズ推定
- Authors: Zimin Xia, Olaf Booij, and Julian F. P. Kooij
- Abstract要約: クロスビューポーズ推定のための新しいエンドツーエンド手法を提案する。
提案手法は,VIGORおよびKITTIデータセット上で検証される。
オックスフォード・ロボットカーのデータセットでは,エゴ車両の姿勢を時間とともに確実に推定することができる。
- 参考スコア(独自算出の注目度): 9.599356978682108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel end-to-end method for cross-view pose estimation. Given a
ground-level query image and an aerial image that covers the query's local
neighborhood, the 3 Degrees-of-Freedom camera pose of the query is estimated by
matching its image descriptor to descriptors of local regions within the aerial
image. The orientation-aware descriptors are obtained by using a
translationally equivariant convolutional ground image encoder and contrastive
learning. The Localization Decoder produces a dense probability distribution in
a coarse-to-fine manner with a novel Localization Matching Upsampling module. A
smaller Orientation Decoder produces a vector field to condition the
orientation estimate on the localization. Our method is validated on the VIGOR
and KITTI datasets, where it surpasses the state-of-the-art baseline by 72% and
36% in median localization error for comparable orientation estimation
accuracy. The predicted probability distribution can represent localization
ambiguity, and enables rejecting possible erroneous predictions. Without
re-training, the model can infer on ground images with different field of views
and utilize orientation priors if available. On the Oxford RobotCar dataset,
our method can reliably estimate the ego-vehicle's pose over time, achieving a
median localization error under 1 meter and a median orientation error of
around 1 degree at 14 FPS.
- Abstract(参考訳): 本稿では,新しい視点間ポーズ推定手法を提案する。
クェリのローカルエリアをカバーする地上レベルのクェリ画像と空中画像が与えられた場合、クェリの3デグリー・オブ・フリーダムカメラのポーズは、その画像ディスクリプタと、その空中画像内のローカル領域のディスクリプタとのマッチングにより推定される。
方向認識ディスクリプタは、変換同値な畳み込み畳み込み基底画像エンコーダとコントラスト学習とを用いて得られる。
ローカライズデコーダは、新しいローカライズマッチングアップサンプリングモジュールと共に、粗〜微妙な方法で高密度確率分布を生成する。
より小さなオリエンテーションデコーダは、ローカライゼーションに向き推定を条件付けるベクトル場を生成する。
提案手法は,VIGORとKITTIのデータセットで検証され,最先端のベースラインを72%,中央値のローカライゼーション誤差が36%の精度で上回っている。
予測確率分布は局所的曖昧性を表すことができ、誤った予測を拒否することができる。
再トレーニングを行わなければ、異なる視野を持つ地上画像を推論し、利用可能であればオリエンテーション優先を利用することができる。
オックスフォード・ロボットカーデータセットでは,1m以下で中央位置推定誤差を,14fpsで1度前後で中央方向誤差を算出し,経時的に ego-vehicle の姿勢を確実に推定する。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Boosting 3-DoF Ground-to-Satellite Camera Localization Accuracy via
Geometry-Guided Cross-View Transformer [66.82008165644892]
地上レベルの画像と一致/検索衛星画像との相対的な回転と変換を推定することにより、地上カメラの位置と方向の精度を向上させる手法を提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-16T11:52:27Z) - PNI : Industrial Anomaly Detection using Position and Neighborhood
Information [6.316693022958221]
本研究では,条件付き近傍特徴量を用いて正規分布を推定する新しいアルゴリズム textbfPNI を提案する。
我々はMVTec ADベンチマークデータセットの実験を行い、異常検出と局所化におけるtextbf99.56%と textbf98.98%のAUROCスコアを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-11-22T23:45:27Z) - Uncertainty-aware Vision-based Metric Cross-view Geolocalization [25.87104194833264]
地上画像と空中画像を用いて車両のポーズの確率分布を予測するエンド・ツー・エンドの微分モデルを提案する。
テストエリアからの地上データや空中データなしでも、最先端の技術を大きなマージンで改善する。
論文 参考訳(メタデータ) (2022-11-22T10:23:20Z) - Visual Cross-View Metric Localization with Dense Uncertainty Estimates [11.76638109321532]
本研究は、屋外ロボティクスにおける視覚的クロスビューメトリックローカライゼーションに対処する。
地上レベルのカラー画像と局地的な環境を含む衛星パッチが与えられた場合、衛星パッチ内の地上カメラの位置を特定することが課題である。
我々は、より高密度な衛星記述子、ボトルネックにおける類似性マッチング、およびマルチモーダルなローカライゼーションの曖昧さを捉えるための出力としての密度空間分布を備えた新しいネットワークアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-08-17T20:12:23Z) - Sampling Based On Natural Image Statistics Improves Local Surrogate
Explainers [111.31448606885672]
代理説明器は、モデルが予測にどのように到着するかをさらに理解するために、ポストホック解釈法として人気がある。
そこで本研究では,(1)局所領域のサンプリング方法を変更すること,(2)自然画像の分布特性を知覚的指標を用いて伝達すること,の2つの手法を提案する。
論文 参考訳(メタデータ) (2022-08-08T08:10:13Z) - Self-Supervised Learning of Image Scale and Orientation [35.94215211409985]
本研究では,興味のある画像領域に対して特徴的ポーズ,すなわちスケールと向きを割り当てる学習の課題について検討する。
モデルが直接学習する明示的なポーズアノテーションを持つ画像領域の大規模な集合を得ることは困難である。
ヒストグラムアライメント技術を用いた自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-15T02:43:39Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。