論文の概要: C-BEV: Contrastive Bird's Eye View Training for Cross-View Image
Retrieval and 3-DoF Pose Estimation
- arxiv url: http://arxiv.org/abs/2312.08060v1
- Date: Wed, 13 Dec 2023 11:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 15:49:17.615388
- Title: C-BEV: Contrastive Bird's Eye View Training for Cross-View Image
Retrieval and 3-DoF Pose Estimation
- Title(参考訳): c-bev:クロスビュー画像検索と3次元ポーズ推定のためのコントラスト鳥眼視訓練
- Authors: Florian Fervers, Sebastian Bullinger, Christoph Bodensteiner, Michael
Arens, Rainer Stiefelhagen
- Abstract要約: 本稿では,ベクトルを埋め込み表現としてではなく,鳥眼ビュー(BEV)マップを用いた新しい学習可能な検索アーキテクチャを提案する。
我々のC-BEV法は,複数のデータセットの検索タスクにおける最先端のタスクを大きなマージンで超えている。
- 参考スコア(独自算出の注目度): 27.870926763424848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To find the geolocation of a street-view image, cross-view geolocalization
(CVGL) methods typically perform image retrieval on a database of georeferenced
aerial images and determine the location from the visually most similar match.
Recent approaches focus mainly on settings where street-view and aerial images
are preselected to align w.r.t. translation or orientation, but struggle in
challenging real-world scenarios where varying camera poses have to be matched
to the same aerial image. We propose a novel trainable retrieval architecture
that uses bird's eye view (BEV) maps rather than vectors as embedding
representation, and explicitly addresses the many-to-one ambiguity that arises
in real-world scenarios. The BEV-based retrieval is trained using the same
contrastive setting and loss as classical retrieval.
Our method C-BEV surpasses the state-of-the-art on the retrieval task on
multiple datasets by a large margin. It is particularly effective in
challenging many-to-one scenarios, e.g. increasing the top-1 recall on VIGOR's
cross-area split with unknown orientation from 31.1% to 65.0%. Although the
model is supervised only through a contrastive objective applied on image
pairings, it additionally learns to infer the 3-DoF camera pose on the matching
aerial image, and even yields a lower mean pose error than recent methods that
are explicitly trained with metric groundtruth.
- Abstract(参考訳): ストリートビュー画像の位置情報を見つけるために、クロスビュージオローカライズ(cvgl)法は、通常、地理参照された空中画像のデータベース上で画像検索を行い、視覚的に最も類似したマッチングから位置を決定する。
近年のアプローチでは、w.r.t.の翻訳や方向を合わせるためにストリートビューや空中画像が事前に選択されているが、異なるカメラのポーズが同じ空中画像と一致しなければならない現実のシナリオに挑戦することに苦慮している。
本稿では,実世界のシナリオで発生する多対一の曖昧さを明示的に解決し,ベクトルではなく鳥の眼図を用いた新しい学習可能な検索アーキテクチャを提案する。
BEVに基づく検索は、古典的検索と同じコントラスト設定と損失を用いて訓練される。
我々のC-BEV法は,複数のデータセットの検索タスクにおける最先端処理を大きなマージンで上回る。
これは特に多くの対1のシナリオに挑戦するのに有効であり、例えば、ビゴールのクロスエリア分割におけるトップ1リコールを31.1%から65.0%に増加させるなどである。
このモデルは、画像ペアリングに適用される対照的な目的によってのみ監督されるが、3-DoFカメラが対応する空中画像にポーズするのを推測すること、さらにはメートル法で明示的に訓練された最近の手法よりも低い平均ポーズ誤差を生じることも学習する。
関連論文リスト
- DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [111.13119809216313]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - BEV-CV: Birds-Eye-View Transform for Cross-View Geo-Localisation [17.223341593229716]
地理的局所化のためのクロスビュー画像マッチングは、空中と地上の視点の視覚的違いが著しく異なるため、難しい問題である。
BEV-CVは2つの重要な新規性を導入するアプローチである。
我々は,標準三重項損失よりも高速な収束を実現するため,正規化温度スケールクロスエントロピー損失をサブフィールドに導入する。
論文 参考訳(メタデータ) (2023-12-23T22:20:45Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。
本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文 参考訳(メタデータ) (2022-07-27T13:16:39Z) - "The Pedestrian next to the Lamppost" Adaptive Object Graphs for Better
Instantaneous Mapping [45.94778766867247]
1つの画像から意味的に区切られた鳥の目視マップを推定することは、自律的な制御とナビゲーションの一般的な技術となっている。
カメラからの距離による位置推定誤差の増加を示す。
本稿では,物体の空間的推論により,BEV物体を単眼画像から予測するグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:23:13Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z) - Cross-View Image Retrieval -- Ground to Aerial Image Retrieval through
Deep Learning [3.326320568999945]
我々は,クロスビュー画像検索CVIRと呼ばれる,多視点画像を対象とした新しいクロスモーダル検索手法を提案する。
本研究の目的は,ストリートビュー画像からのサンプルを衛星ビュー画像と直接比較する,特徴空間と埋め込み空間を見出すことである。
この比較のために、DeepCVIRという新しい深層学習ソリューションが提案されている。
論文 参考訳(メタデータ) (2020-05-02T06:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。