論文の概要: VG-SSL: Benchmarking Self-supervised Representation Learning Approaches for Visual Geo-localization
- arxiv url: http://arxiv.org/abs/2308.00090v3
- Date: Thu, 21 Nov 2024 16:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:16:21.228658
- Title: VG-SSL: Benchmarking Self-supervised Representation Learning Approaches for Visual Geo-localization
- Title(参考訳): VG-SSL:ビジュアルジオローカライゼーションのための自己教師型表現学習手法のベンチマーク
- Authors: Jiuhong Xiao, Gao Zhu, Giuseppe Loianno,
- Abstract要約: 本稿では,VGにおける表現学習のための多様なSSLメソッドの汎用的な統合とベンチマークのために設計された,新しいVG-SSLフレームワークを提案する。
我々は、ロボット工学や自動運転車で使用される手持ちカメラや車載カメラのデータセットのVGを改善するためにSSL技術を適用します。
その結果, 比較学習と情報手法は, 最先端のVG技術の性能に適合するか, あるいは超越しているか, より優れた地形特化表現品質をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 7.689824252319191
- License:
- Abstract: Visual Geo-localization (VG) is a critical research area for identifying geo-locations from visual inputs, particularly in autonomous navigation for robotics and vehicles. Current VG methods often learn feature extractors from geo-labeled images to create dense, geographically relevant representations. Recent advances in Self-Supervised Learning (SSL) have demonstrated its capability to achieve performance on par with supervised techniques with unlabeled images. This study presents a novel VG-SSL framework, designed for versatile integration and benchmarking of diverse SSL methods for representation learning in VG, featuring a unique geo-related pair strategy, GeoPair. Through extensive performance analysis, we adapt SSL techniques to improve VG on datasets from hand-held and car-mounted cameras used in robotics and autonomous vehicles. Our results show that contrastive learning and information maximization methods yield superior geo-specific representation quality, matching or surpassing the performance of state-of-the-art VG techniques. To our knowledge, This is the first benchmarking study of SSL in VG, highlighting its potential in enhancing geo-specific visual representations for robotics and autonomous vehicles. The code is publicly available at https://github.com/arplaboratory/VG-SSL.
- Abstract(参考訳): 視覚的ジオローカライゼーション(VG)は、特にロボットや車両の自律ナビゲーションにおいて、視覚的な入力から位置情報を特定するための重要な研究領域である。
現在のVG法は、ジオラベル画像から特徴抽出器を学習し、密度が高く地理的に関係のある表現を生成する。
SSL(Self-Supervised Learning)の最近の進歩は、ラベルなし画像を用いた教師あり技術と同等のパフォーマンスを実現する能力を示している。
本研究は,VGにおける表現学習のための多様なSSLメソッドの汎用的な統合とベンチマークのために設計された新しいVG-SSLフレームワークであるGeoPairを特徴とする。
広範なパフォーマンス分析を通じて、ロボット工学や自動運転車で使用されるハンドヘルドおよび車載カメラのデータセット上のVGを改善するためにSSL技術を適用した。
比較学習と情報最大化手法は, 最先端のVG技術の性能に適合するか, あるいは超越して, より優れた地形特化表現品質が得られることを示す。
我々の知る限り、これはVGにおけるSSLの初めてのベンチマーク研究であり、ロボット工学と自動運転車のための地理的特化視覚表現を強化する可能性を強調している。
コードはhttps://github.com/arplaboratory/VG-SSLで公開されている。
関連論文リスト
- Self-supervised Learning for Geospatial AI: A Survey [21.504978593542354]
自己教師付き学習(SSL)は地理空間データに採用されていることで注目を集めている。
本稿では,地理空間ベクトルデータで広く用いられている3種類の一次データ(幾何学)に対して,SSL技術の適用および開発に関する包括的かつ最新の調査を行う。
論文 参考訳(メタデータ) (2024-08-22T05:28:22Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep
Learning [77.34726150561087]
本稿では,公開されているリモートセンシングデータからなるマルチモーダル・大規模時間データセットを作成するためのアプローチを提案する。
我々は、異なる種類の植生を分離できる畳み込みニューラルネットワーク(CNN)モデルを使用する。
論文 参考訳(メタデータ) (2022-09-28T18:51:59Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Graph-based Semi-supervised Learning: A Comprehensive Review [51.26862262550445]
半教師付き学習(ssl)はラベル付きデータとラベルなしデータの両方を利用する能力があるため、実際非常に価値があります。
重要なSSLメソッドのクラスは、グラフベースの半教師付き学習(GSSL)メソッドに対応するグラフとしてデータを自然に表現することです。
GSSLメソッドは、構造のユニークさ、アプリケーションの普遍性、大規模データへのスケーラビリティのために、さまざまなドメインでその利点を実証しています。
論文 参考訳(メタデータ) (2021-02-26T05:11:09Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。