論文の概要: Leveraging EfficientNet and Contrastive Learning for Accurate
Global-scale Location Estimation
- arxiv url: http://arxiv.org/abs/2105.07645v1
- Date: Mon, 17 May 2021 07:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:44:34.152641
- Title: Leveraging EfficientNet and Contrastive Learning for Accurate
Global-scale Location Estimation
- Title(参考訳): efficientnet と contrastive learning を用いた高精度地球規模位置推定
- Authors: Giorgos Kordopatis-Zilos, Panagiotis Galopoulos, Symeon Papadopoulos,
Ioannis Kompatsiaris
- Abstract要約: 地球規模の画像ジオロケーションのための混合分類検索方式を提案する。
このアプローチは、4つの公開データセットで非常に競争力のあるパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 15.633461635276337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of global-scale image geolocation,
proposing a mixed classification-retrieval scheme. Unlike other methods that
strictly tackle the problem as a classification or retrieval task, we combine
the two practices in a unified solution leveraging the advantages of each
approach with two different modules. The first leverages the EfficientNet
architecture to assign images to a specific geographic cell in a robust way.
The second introduces a new residual architecture that is trained with
contrastive learning to map input images to an embedding space that minimizes
the pairwise geodesic distance of same-location images. For the final location
estimation, the two modules are combined with a search-within-cell scheme,
where the locations of most similar images from the predicted geographic cell
are aggregated based on a spatial clustering scheme. Our approach demonstrates
very competitive performance on four public datasets, achieving new
state-of-the-art performance in fine granularity scales, i.e., 15.0% at 1km
range on Im2GPS3k.
- Abstract(参考訳): 本稿では,世界規模の画像位置情報問題に対処し,混合分類・再帰スキームを提案する。
分類や検索タスクとしてこの問題に厳密に取り組む他の手法とは異なり、それぞれのアプローチの利点を2つの異なるモジュールで活用した統一ソリューションで2つのプラクティスを組み合わせる。
ひとつは、EfficientNetアーキテクチャを利用して、イメージを特定の地理的セルにロバストな方法で割り当てる。
第二に、コントラスト学習で訓練された新しい残差アーキテクチャを導入し、入力画像を同じ位置画像の対方向測地距離を最小化する埋め込み空間にマッピングする。
最終的な位置推定のために、この2つのモジュールは、予測された地理的セルからの最も類似した画像の位置を、空間的クラスタリングスキームに基づいて集約するsearch-within-cellスキームと組み合わせられる。
提案手法は,Im2GPS3kの1km範囲において,4つの公開データセットに対して非常に競争力のある性能を示す。
関連論文リスト
- Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation [9.161203553842787]
画像位置情報をテキスト生成タスクとして再定義する新しいシステムであるImg2Locを提案する。
Img2LocはまずCLIPベースの表現を使用して画像ベースの座標クエリデータベースを生成する。
そして、クエリ結果と画像自体を一意に結合し、LMM用にカスタマイズされた精巧なプロンプトを形成する。
Im2GPS3kやYFCC4kのようなベンチマークデータセットでテストする場合、Img2Locは従来の最先端モデルのパフォーマンスを上回るだけでなく、モデルトレーニングなしでテストする。
論文 参考訳(メタデータ) (2024-03-28T17:07:02Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Interpretable Semantic Photo Geolocalization [4.286838964398275]
ジオローカリゼーションモデルの解釈性を改善するために,2つのコントリビューションを提案する。
本稿では,予測の理解を直感的に向上させる新しいセマンティックパーティショニング手法を提案する。
また,ある予測のための意味的視覚概念の重要性を評価するための新しい指標も導入する。
論文 参考訳(メタデータ) (2021-04-30T13:28:18Z) - Scale Aware Adaptation for Land-Cover Classification in Remote Sensing
Imagery [4.793219747021116]
リモートセンシング画像を用いた土地被覆分類は重要な地球観測課題である。
リモートセンシングイメージでディープセグメンテーションモデルをトレーニングするためのベンチマークデータセットは小さい傾向がある。
クロスロケーションおよびクロススケールの土地被覆分類を行うためのスケール認識型対人学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-08T05:15:43Z) - Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。
本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。
GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文 参考訳(メタデータ) (2020-11-06T14:01:03Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。