Fugu-MT 論文翻訳(概要): C-BEV: Contrastive Bird's Eye View Training for Cross-View Image Retrieval and 3-DoF Pose Estimation

論文の概要: C-BEV: Contrastive Bird's Eye View Training for Cross-View Image Retrieval and 3-DoF Pose Estimation

arxiv url: http://arxiv.org/abs/2312.08060v1
Date: Wed, 13 Dec 2023 11:14:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 15:49:17.615388
Title: C-BEV: Contrastive Bird's Eye View Training for Cross-View Image Retrieval and 3-DoF Pose Estimation
Title（参考訳）: c-bev:クロスビュー画像検索と3次元ポーズ推定のためのコントラスト鳥眼視訓練
Authors: Florian Fervers, Sebastian Bullinger, Christoph Bodensteiner, Michael Arens, Rainer Stiefelhagen
Abstract要約: 本稿では,ベクトルを埋め込み表現としてではなく,鳥眼ビュー(BEV)マップを用いた新しい学習可能な検索アーキテクチャを提案する。我々のC-BEV法は,複数のデータセットの検索タスクにおける最先端のタスクを大きなマージンで超えている。
参考スコア（独自算出の注目度）: 27.870926763424848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To find the geolocation of a street-view image, cross-view geolocalization (CVGL) methods typically perform image retrieval on a database of georeferenced aerial images and determine the location from the visually most similar match. Recent approaches focus mainly on settings where street-view and aerial images are preselected to align w.r.t. translation or orientation, but struggle in challenging real-world scenarios where varying camera poses have to be matched to the same aerial image. We propose a novel trainable retrieval architecture that uses bird's eye view (BEV) maps rather than vectors as embedding representation, and explicitly addresses the many-to-one ambiguity that arises in real-world scenarios. The BEV-based retrieval is trained using the same contrastive setting and loss as classical retrieval. Our method C-BEV surpasses the state-of-the-art on the retrieval task on multiple datasets by a large margin. It is particularly effective in challenging many-to-one scenarios, e.g. increasing the top-1 recall on VIGOR's cross-area split with unknown orientation from 31.1% to 65.0%. Although the model is supervised only through a contrastive objective applied on image pairings, it additionally learns to infer the 3-DoF camera pose on the matching aerial image, and even yields a lower mean pose error than recent methods that are explicitly trained with metric groundtruth.
Abstract（参考訳）: ストリートビュー画像の位置情報を見つけるために、クロスビュージオローカライズ(cvgl)法は、通常、地理参照された空中画像のデータベース上で画像検索を行い、視覚的に最も類似したマッチングから位置を決定する。近年のアプローチでは、w.r.t.の翻訳や方向を合わせるためにストリートビューや空中画像が事前に選択されているが、異なるカメラのポーズが同じ空中画像と一致しなければならない現実のシナリオに挑戦することに苦慮している。本稿では,実世界のシナリオで発生する多対一の曖昧さを明示的に解決し,ベクトルではなく鳥の眼図を用いた新しい学習可能な検索アーキテクチャを提案する。 BEVに基づく検索は、古典的検索と同じコントラスト設定と損失を用いて訓練される。我々のC-BEV法は,複数のデータセットの検索タスクにおける最先端処理を大きなマージンで上回る。これは特に多くの対1のシナリオに挑戦するのに有効であり、例えば、ビゴールのクロスエリア分割におけるトップ1リコールを31.1%から65.0%に増加させるなどである。このモデルは、画像ペアリングに適用される対照的な目的によってのみ監督されるが、3-DoFカメラが対応する空中画像にポーズするのを推測すること、さらにはメートル法で明示的に訓練された最近の手法よりも低い平均ポーズ誤差を生じることも学習する。

関連論文リスト

A Guide to Structureless Visual Localization [63.41481414949785]
既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
論文参考訳（メタデータ） (2025-04-24T15:08:36Z)
FG$^2$: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching [69.81167130510333]
本研究では, 地上画像の3次元自由度ポーズを, 周囲の空中画像から推定する, 微粒なクロスビューローカライゼーション手法を提案する。地中画像から生成された点面と地中画像からサンプリングされた点面とを合わせ、ポーズを推定する。従来の最先端技術と比較して,VIGORクロスエリアテストセットでは,平均局所化誤差を28%削減する。
論文参考訳（メタデータ） (2025-03-24T14:34:20Z)
BevSplat: Resolving Height Ambiguity via Feature-Based Gaussian Primitives for Weakly-Supervised Cross-View Localization [11.50186721264038]
本稿では、弱教師付きクロスビューローカライゼーションの問題に対処する。目的は、ノイズの多い地上の真実の注釈で衛星画像に対する地上カメラのポーズを推定することである。特徴に基づくガウス的プリミティブを用いて高さのあいまいさを解決する新しい手法であるBevSplatを提案する。
論文参考訳（メタデータ） (2025-02-13T08:54:04Z)
Unsupervised Multi-view UAV Image Geo-localization via Iterative Rendering [31.716967688739036]
無人航空機 (UAV) クロスビュージオローカライゼーション (CVGL) は重要な課題である。既存の手法は、ビュー横断検索のための視点不変の特徴を抽出するためにラベル付きデータセットの監督に依存している。衛星画像生成のためのUAV観測から3次元空間にシーン表現を持ち上げる教師なしのソリューションを提案する。
論文参考訳（メタデータ） (2024-11-22T09:22:39Z)
Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network [12.692812966686066]
クロスビュージオローカライゼーションは、地理参照衛星データベースとマッチングすることで、ストリートビュー画像の地理的位置を識別する。そこで我々は,パノラマBEVコレトリヴァルネットワーク(Panorama-BEV Co-Retrieval Network)という,クロスビュー画像のジオローカライズのための新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-08-10T08:03:58Z)
Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。 VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文参考訳（メタデータ） (2024-06-23T20:00:20Z)
Adapting Fine-Grained Cross-View Localization to Areas without Fine Ground Truth [56.565405280314884]
本稿では,GTの微細化を伴わないターゲット領域の画像のみを活用することにより,新たなターゲット領域におけるトレーニングモデルの性能向上に焦点をあてる。本稿では,知識の自己蒸留に基づく弱教師付き学習手法を提案する。提案手法は,最近の2つのベンチマークモデルを用いて検証した。
論文参考訳（メタデータ） (2024-06-01T15:58:35Z)
BEV-CV: Birds-Eye-View Transform for Cross-View Geo-Localisation [15.324623975476348]
地理的局所化のためのクロスビュー画像マッチングは、空中と地上の視点の視覚的違いが著しく異なるため、難しい問題である。 BEV-CVは2つの重要なノベルティを導入するアプローチであり、クロスビューなジオローカライゼーションの現実的実現性の向上に重点を置いている。
論文参考訳（メタデータ） (2023-12-23T22:20:45Z)
Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。シーン領域の分類手法を提案する。
論文参考訳（メタデータ） (2022-08-14T22:39:02Z)
Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文参考訳（メタデータ） (2022-07-27T13:16:39Z)
"The Pedestrian next to the Lamppost" Adaptive Object Graphs for Better Instantaneous Mapping [45.94778766867247]
1つの画像から意味的に区切られた鳥の目視マップを推定することは、自律的な制御とナビゲーションの一般的な技術となっている。カメラからの距離による位置推定誤差の増加を示す。本稿では,物体の空間的推論により,BEV物体を単眼画像から予測するグラフニューラルネットワークを提案する。
論文参考訳（メタデータ） (2022-04-06T17:23:13Z)
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文参考訳（メタデータ） (2021-03-14T11:18:50Z)
VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文参考訳（メタデータ） (2020-11-24T15:50:54Z)
Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文参考訳（メタデータ） (2020-05-08T05:21:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。