論文の概要: RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings
- arxiv url: http://arxiv.org/abs/2502.19781v1
- Date: Thu, 27 Feb 2025 05:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:40.141019
- Title: RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings
- Title(参考訳): RANGE:マルチリゾリューションジオ埋め込みのための検索強化ニューラルネットワーク
- Authors: Aayush Dhakal, Srikumar Sastry, Subash Khanal, Adeel Ahmad, Eric Xing, Nathan Jacobs,
- Abstract要約: RANGEと呼ばれる新しい検索戦略を提案する。
分類タスクは最大13.1%、回帰タスクは0.145ドルR2$である。
コードはすべてGitHubでリリースされます。
- 参考スコア(独自算出の注目度): 7.431269929582643
- License:
- Abstract: The choice of representation for geographic location significantly impacts the accuracy of models for a broad range of geospatial tasks, including fine-grained species classification, population density estimation, and biome classification. Recent works like SatCLIP and GeoCLIP learn such representations by contrastively aligning geolocation with co-located images. While these methods work exceptionally well, in this paper, we posit that the current training strategies fail to fully capture the important visual features. We provide an information theoretic perspective on why the resulting embeddings from these methods discard crucial visual information that is important for many downstream tasks. To solve this problem, we propose a novel retrieval-augmented strategy called RANGE. We build our method on the intuition that the visual features of a location can be estimated by combining the visual features from multiple similar-looking locations. We evaluate our method across a wide variety of tasks. Our results show that RANGE outperforms the existing state-of-the-art models with significant margins in most tasks. We show gains of up to 13.1\% on classification tasks and 0.145 $R^2$ on regression tasks. All our code will be released on GitHub. Our models will be released on HuggingFace.
- Abstract(参考訳): 地理的位置の表現の選択は、細粒度の種分類、人口密度の推定、バイオメの分類など、幅広い地理空間的タスクのモデルの精度に大きな影響を及ぼす。
SatCLIPやGeoCLIPといった最近の研究は、位置と位置を平行に合わせることで、そのような表現を学習している。
これらの手法は極めてうまく機能するが、本稿では、現在のトレーニング戦略が重要な視覚的特徴を完全に捉えることに失敗していると仮定する。
本稿では,これらの手法から得られる埋め込みが,下流作業において重要な重要な視覚情報を捨てる理由について,情報理論的な視点を提供する。
そこで本研究では,RANGEと呼ばれる新たな検索戦略を提案する。
本手法は,複数の類似した位置の視覚的特徴を組み合わせることで,位置の視覚的特徴を推定できるという直感に基づいて構築する。
我々は様々なタスクにまたがって手法を評価した。
その結果、RANGEは既存の最先端モデルよりも優れており、多くのタスクにおいてかなりの差があることがわかった。
分類タスクは最大13.1\%、回帰タスクは0.145$R^2$である。
コードはすべてGitHubでリリースされます。
私たちのモデルはHuggingFaceでリリースされます。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - GSV-Cities: Toward Appropriate Supervised Visual Place Recognition [3.6739949215165164]
我々は,GSV-Citiesという画像データセットを紹介した。
次に、位置認識に特化してネットワークをトレーニングするディープメトリックス学習の進歩の可能性について検討する。
ピッツバーグ、Mapillary-SLS、SPED、Norlandといった大規模ベンチマークで、最先端の新たなベンチマークを確立します。
論文 参考訳(メタデータ) (2022-10-19T01:39:29Z) - Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文 参考訳(メタデータ) (2021-08-26T11:41:03Z) - Leveraging EfficientNet and Contrastive Learning for Accurate
Global-scale Location Estimation [15.633461635276337]
地球規模の画像ジオロケーションのための混合分類検索方式を提案する。
このアプローチは、4つの公開データセットで非常に競争力のあるパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-05-17T07:18:43Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - SE-KGE: A Location-Aware Knowledge Graph Embedding Model for Geographic
Question Answering and Spatial Semantic Lifting [9.949690056661218]
位置認識型KG埋め込みモデルSE-KGEを提案する。
点座標や地理的実体の境界ボックスなどの空間情報をKG埋め込み空間にエンコードする。
また、SE-KGEの性能を評価するために、地理知識グラフと、DBGeoと呼ばれる地理的問合せ対のセットを構築した。
論文 参考訳(メタデータ) (2020-04-25T17:46:31Z) - A Transfer Learning approach to Heatmap Regression for Action Unit
intensity estimation [50.261472059743845]
アクション・ユニット(英: Action Units、AUs)は、幾何学に基づく原子性顔面筋運動である。
本稿では,その位置と強度を共同で推定する新しいAUモデリング問題を提案する。
ヒートマップは、所定の空間的位置でAUが発生するか否かをモデル化する。
論文 参考訳(メタデータ) (2020-04-14T16:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。