論文の概要: GSV-Cities: Toward Appropriate Supervised Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2210.10239v1
- Date: Wed, 19 Oct 2022 01:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:38:22.563082
- Title: GSV-Cities: Toward Appropriate Supervised Visual Place Recognition
- Title(参考訳): GSV-Cities: 適切な視覚的位置認識を目指して
- Authors: Amar Ali-bey, Brahim Chaib-draa, Philippe Gigu\`ere
- Abstract要約: 我々は,GSV-Citiesという画像データセットを紹介した。
次に、位置認識に特化してネットワークをトレーニングするディープメトリックス学習の進歩の可能性について検討する。
ピッツバーグ、Mapillary-SLS、SPED、Norlandといった大規模ベンチマークで、最先端の新たなベンチマークを確立します。
- 参考スコア(独自算出の注目度): 3.6739949215165164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to investigate representation learning for large scale visual
place recognition, which consists of determining the location depicted in a
query image by referring to a database of reference images. This is a
challenging task due to the large-scale environmental changes that can occur
over time (i.e., weather, illumination, season, traffic, occlusion). Progress
is currently challenged by the lack of large databases with accurate ground
truth. To address this challenge, we introduce GSV-Cities, a new image dataset
providing the widest geographic coverage to date with highly accurate ground
truth, covering more than 40 cities across all continents over a 14-year
period. We subsequently explore the full potential of recent advances in deep
metric learning to train networks specifically for place recognition, and
evaluate how different loss functions influence performance. In addition, we
show that performance of existing methods substantially improves when trained
on GSV-Cities. Finally, we introduce a new fully convolutional aggregation
layer that outperforms existing techniques, including GeM, NetVLAD and
CosPlace, and establish a new state-of-the-art on large-scale benchmarks, such
as Pittsburgh, Mapillary-SLS, SPED and Nordland. The dataset and code are
available for research purposes at https://github.com/amaralibey/gsv-cities.
- Abstract(参考訳): 本稿では,参照画像のデータベースを参照して,検索画像に表示される位置を判断する大規模視覚的位置認識のための表現学習について検討する。
これは、時間とともに起こる大規模な環境変化(天気、照明、季節、交通、閉塞など)のために難しい課題である。
現状では、正確な根拠のある大規模なデータベースが不足している。
この課題に対処するために、我々はgsv-citiesを紹介する。これは14年間にわたって、全大陸で40以上の都市をカバーする、これまでで最も広い地理的カバレッジと高精度な地上真実を提供する新しい画像データセットである。
次に、位置認識のためのネットワークを訓練するディープメトリック学習の最近の進歩の可能性を探り、異なる損失関数がパフォーマンスにどのように影響するかを評価する。
また,gsv-citiesでトレーニングすると,既存の手法の性能が大幅に向上することを示す。
最後に,gem,netvlad,cosplaceなどの既存技術に勝る新たな畳み込み集約層を導入し,ピッツバーグ,mapillary-sls,sped,nordlandなどの大規模ベンチマークにおける最新技術を確立した。
データセットとコードは、https://github.com/amaralibey/gsv-citiesで研究目的に利用できる。
関連論文リスト
- GeoReasoner: Geo-localization with Reasoning in Street Views using a Large Vision-Language Model [6.135404769437841]
本研究は,大規模視覚言語モデル(LVLM)を用いた新しいパラダイムによる地理的局在化の課題に取り組む。
既存のストリートビューデータセットには、視覚的な手がかりがなく、推論に理由がない多くの低品質画像が含まれていることが多い。
データ品質の問題に対処するため、我々はCLIPベースのネットワークを考案し、街路ビュー画像がどこにあるかを定量化する。
推論の精度を高めるために,実地局所化ゲームから得られた外部知識を統合し,価値ある人間の推論能力を活用する。
論文 参考訳(メタデータ) (2024-06-03T18:08:56Z) - Forest Inspection Dataset for Aerial Semantic Segmentation and Depth
Estimation [6.635604919499181]
森林調査のための大規模航空データセットを新たに導入する。
現実世界と仮想的な自然環境の記録も含んでいる。
地域の森林破壊度を評価するための枠組みを開発する。
論文 参考訳(メタデータ) (2024-03-11T11:26:44Z) - SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery [22.716322265391852]
衛星コントラスト位置画像事前学習(SatCLIP)について紹介する。
SatCLIPは、公開衛星画像のCNNとViTの視覚パターンを地理的座標と一致させることで、位置の暗黙的な表現を学習する。
実験では、温度予測、動物認識、人口密度推定を含む9つの異なる位置依存タスクにおいて、SatCLIP埋め込みを用いて予測性能を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:14:40Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - 4Seasons: Benchmarking Visual SLAM and Long-Term Localization for
Autonomous Driving in Challenging Conditions [54.59279160621111]
大規模4Seasonsデータセットに基づく課題条件下での自律運転のための新しい視覚的SLAMと長期局所化ベンチマークを提案する。
提案したベンチマークでは,季節変化や天候,照明条件の変動による劇的な外見の変化が報告されている。
本稿では,視覚計測,大域的位置認識,および地図に基づく視覚的位置決め性能を共同評価するための統合ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-12-31T13:52:36Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Rethinking Visual Geo-localization for Large-Scale Applications [18.09618985653891]
サンフランシスコのeXtra Largeは、都市全体をカバーする新しいデータセットで、さまざまな困難なケースを提供します。
我々はCosPlaceと呼ばれる新しい高度にスケーラブルなトレーニングテクニックを設計し、そのトレーニングを分類問題として位置づける。
幅広いデータセットで最先端のパフォーマンスを実現し、CosPlaceがドメイン変更に対して堅牢であることに気付きました。
論文 参考訳(メタデータ) (2022-04-05T15:33:45Z) - SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point
Clouds [52.624157840253204]
センサットウルバン(SensatUrban)は、イギリスの3都市から収集された7.6km2の30億点近くからなる、都市規模のUAV測光点クラウドデータセットである。
データセットの各ポイントは、粒度の細かいセマンティックアノテーションでラベル付けされ、その結果、既存の最大のフォトグラムポイントクラウドデータセットの3倍の大きさのデータセットが生成される。
論文 参考訳(メタデータ) (2022-01-12T14:48:11Z) - Improving Deep Stereo Network Generalization with Geometric Priors [93.09496073476275]
地上の真実が密集した多様な現実世界のシーンの大規模なデータセットを得ることは困難である。
多くのアルゴリズムは、似たようなシーンや合成データセットの小さな実世界のデータセットに依存している。
本稿では,シーン幾何学の事前知識をエンド・ツー・エンドのステレオネットワークに統合し,ネットワークの一般化を支援することを提案する。
論文 参考訳(メタデータ) (2020-08-25T15:24:02Z) - JHU-CROWD++: Large-Scale Crowd Counting Dataset and A Benchmark Method [92.15895515035795]
我々は、"4,372"イメージと"1.51万"アノテーションを含む、新しい大規模非制約クラウドカウントデータセット(JHU-CROWD++)を導入する。
本稿では, 残差誤差推定により, 群集密度マップを段階的に生成する新しい群集カウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T14:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。