論文の概要: C-BEV: Contrastive Bird's Eye View Training for Cross-View Image
Retrieval and 3-DoF Pose Estimation
- arxiv url: http://arxiv.org/abs/2312.08060v1
- Date: Wed, 13 Dec 2023 11:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 15:49:17.615388
- Title: C-BEV: Contrastive Bird's Eye View Training for Cross-View Image
Retrieval and 3-DoF Pose Estimation
- Title(参考訳): c-bev:クロスビュー画像検索と3次元ポーズ推定のためのコントラスト鳥眼視訓練
- Authors: Florian Fervers, Sebastian Bullinger, Christoph Bodensteiner, Michael
Arens, Rainer Stiefelhagen
- Abstract要約: 本稿では,ベクトルを埋め込み表現としてではなく,鳥眼ビュー(BEV)マップを用いた新しい学習可能な検索アーキテクチャを提案する。
我々のC-BEV法は,複数のデータセットの検索タスクにおける最先端のタスクを大きなマージンで超えている。
- 参考スコア(独自算出の注目度): 27.870926763424848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To find the geolocation of a street-view image, cross-view geolocalization
(CVGL) methods typically perform image retrieval on a database of georeferenced
aerial images and determine the location from the visually most similar match.
Recent approaches focus mainly on settings where street-view and aerial images
are preselected to align w.r.t. translation or orientation, but struggle in
challenging real-world scenarios where varying camera poses have to be matched
to the same aerial image. We propose a novel trainable retrieval architecture
that uses bird's eye view (BEV) maps rather than vectors as embedding
representation, and explicitly addresses the many-to-one ambiguity that arises
in real-world scenarios. The BEV-based retrieval is trained using the same
contrastive setting and loss as classical retrieval.
Our method C-BEV surpasses the state-of-the-art on the retrieval task on
multiple datasets by a large margin. It is particularly effective in
challenging many-to-one scenarios, e.g. increasing the top-1 recall on VIGOR's
cross-area split with unknown orientation from 31.1% to 65.0%. Although the
model is supervised only through a contrastive objective applied on image
pairings, it additionally learns to infer the 3-DoF camera pose on the matching
aerial image, and even yields a lower mean pose error than recent methods that
are explicitly trained with metric groundtruth.
- Abstract(参考訳): ストリートビュー画像の位置情報を見つけるために、クロスビュージオローカライズ(cvgl)法は、通常、地理参照された空中画像のデータベース上で画像検索を行い、視覚的に最も類似したマッチングから位置を決定する。
近年のアプローチでは、w.r.t.の翻訳や方向を合わせるためにストリートビューや空中画像が事前に選択されているが、異なるカメラのポーズが同じ空中画像と一致しなければならない現実のシナリオに挑戦することに苦慮している。
本稿では,実世界のシナリオで発生する多対一の曖昧さを明示的に解決し,ベクトルではなく鳥の眼図を用いた新しい学習可能な検索アーキテクチャを提案する。
BEVに基づく検索は、古典的検索と同じコントラスト設定と損失を用いて訓練される。
我々のC-BEV法は,複数のデータセットの検索タスクにおける最先端処理を大きなマージンで上回る。
これは特に多くの対1のシナリオに挑戦するのに有効であり、例えば、ビゴールのクロスエリア分割におけるトップ1リコールを31.1%から65.0%に増加させるなどである。
このモデルは、画像ペアリングに適用される対照的な目的によってのみ監督されるが、3-DoFカメラが対応する空中画像にポーズするのを推測すること、さらにはメートル法で明示的に訓練された最近の手法よりも低い平均ポーズ誤差を生じることも学習する。
関連論文リスト
- Unsupervised Multi-view UAV Image Geo-localization via Iterative Rendering [31.716967688739036]
無人航空機 (UAV) クロスビュージオローカライゼーション (CVGL) は重要な課題である。
既存の手法は、ビュー横断検索のための視点不変の特徴を抽出するためにラベル付きデータセットの監督に依存している。
衛星画像生成のためのUAV観測から3次元空間にシーン表現を持ち上げる教師なしのソリューションを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:22:39Z) - Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network [12.692812966686066]
クロスビュージオローカライゼーションは、地理参照衛星データベースとマッチングすることで、ストリートビュー画像の地理的位置を識別する。
そこで我々は,パノラマBEVコレトリヴァルネットワーク(Panorama-BEV Co-Retrieval Network)という,クロスビュー画像のジオローカライズのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-10T08:03:58Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Adapting Fine-Grained Cross-View Localization to Areas without Fine Ground Truth [56.565405280314884]
本稿では,GTの微細化を伴わないターゲット領域の画像のみを活用することにより,新たなターゲット領域におけるトレーニングモデルの性能向上に焦点をあてる。
本稿では,知識の自己蒸留に基づく弱教師付き学習手法を提案する。
提案手法は,最近の2つのベンチマークモデルを用いて検証した。
論文 参考訳(メタデータ) (2024-06-01T15:58:35Z) - BEV-CV: Birds-Eye-View Transform for Cross-View Geo-Localisation [15.324623975476348]
地理的局所化のためのクロスビュー画像マッチングは、空中と地上の視点の視覚的違いが著しく異なるため、難しい問題である。
BEV-CVは2つの重要なノベルティを導入するアプローチであり、クロスビューなジオローカライゼーションの現実的実現性の向上に重点を置いている。
論文 参考訳(メタデータ) (2023-12-23T22:20:45Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。
本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文 参考訳(メタデータ) (2022-07-27T13:16:39Z) - "The Pedestrian next to the Lamppost" Adaptive Object Graphs for Better
Instantaneous Mapping [45.94778766867247]
1つの画像から意味的に区切られた鳥の目視マップを推定することは、自律的な制御とナビゲーションの一般的な技術となっている。
カメラからの距離による位置推定誤差の増加を示す。
本稿では,物体の空間的推論により,BEV物体を単眼画像から予測するグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:23:13Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。