Fugu-MT 論文翻訳(概要): SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery

論文の概要: SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery

arxiv url: http://arxiv.org/abs/2311.17179v3
Date: Fri, 12 Apr 2024 22:23:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 23:17:34.496662
Title: SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery
Title（参考訳）: SatCLIP: 衛星画像を用いたグローバルで汎用的な位置埋め込み
Authors: Konstantin Klemmer, Esther Rolf, Caleb Robinson, Lester Mackey, Marc Rußwurm,
Abstract要約: 衛星コントラスト位置画像事前学習(SatCLIP)について紹介する。 SatCLIPは、公開衛星画像のCNNとViTの視覚パターンを地理的座標と一致させることで、位置の暗黙的な表現を学習する。実験では、温度予測、動物認識、人口密度推定を含む9つの異なる位置依存タスクにおいて、SatCLIP埋め込みを用いて予測性能を向上させる。
参考スコア（独自算出の注目度）: 22.716322265391852
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Geographic information is essential for modeling tasks in fields ranging from ecology to epidemiology. However, extracting relevant location characteristics for a given task can be challenging, often requiring expensive data fusion or distillation from massive global imagery datasets. To address this challenge, we introduce Satellite Contrastive Location-Image Pretraining (SatCLIP). This global, general-purpose geographic location encoder learns an implicit representation of locations by matching CNN and ViT inferred visual patterns of openly available satellite imagery with their geographic coordinates. The resulting SatCLIP location encoder efficiently summarizes the characteristics of any given location for convenient use in downstream tasks. In our experiments, we use SatCLIP embeddings to improve prediction performance on nine diverse location-dependent tasks including temperature prediction, animal recognition, and population density estimation. Across tasks, SatCLIP consistently outperforms alternative location encoders and improves geographic generalization by encoding visual similarities of spatially distant environments. These results demonstrate the potential of vision-location models to learn meaningful representations of our planet from the vast, varied, and largely untapped modalities of geospatial data.
Abstract（参考訳）: 地理情報は、生態学から疫学までの分野におけるタスクのモデル化に不可欠である。しかし、与えられたタスクに関連する位置特性を抽出することは困難であり、多くの場合、大規模なグローバルなデータセットから高価なデータ融合や蒸留を必要とする。この課題に対処するために、衛星コントラスト位置画像事前学習(SatCLIP)を紹介する。このグローバルで汎用的な位置情報エンコーダは、公開衛星画像のCNNとViTの視覚的パターンを地理的座標とマッチングすることにより、位置の暗黙的な表現を学習する。結果として得られるSatCLIPロケーションエンコーダは、ダウンストリームタスクで便利な使用のために、任意のロケーションの特性を効率的に要約する。実験では, 温度予測, 動物認識, 人口密度推定など, 9つの異なる位置依存タスクの予測性能を向上させるために, SatCLIP埋め込みを用いた。タスク全体にわたって、SatCLIPは代替位置エンコーダを一貫して上回り、空間的に離れた環境の視覚的類似性を符号化することで地理的一般化を改善する。これらの結果は、地球空間データの広大で多様で、ほとんど未発達なモダリティから、我々の惑星の有意義な表現を学習する視覚配置モデルの可能性を示している。

関連論文リスト

Using Multiple Input Modalities Can Improve Data-Efficiency and O.O.D. Generalization for ML with Satellite Imagery [3.3964392722361785]
衛星画像(SatML)に基づいて訓練された機械学習モデルの大部分は、主にマルチスペクトル衛星画像のような光学的入力モダリティのために設計されている。分類、回帰、セグメンテーションにまたがるデータセットに地理的データ層を追加することで、SatMLベンチマークタスクの拡張バージョンを生成します。また,SatMLモデルの性能向上が期待できる。
論文参考訳（メタデータ） (2025-07-15T22:57:29Z)
HyBiomass: Global Hyperspectral Imagery Benchmark Dataset for Evaluating Geospatial Foundation Models in Forest Aboveground Biomass Estimation [1.0408909053766147]
本研究では,森林表層バイオマス(AGB)推定のためのグローバル分散ベンチマークデータセットを提案する。このベンチマークデータセットは、環境マッピング・分析プログラム(EnMAP)衛星からのHSIと、AGB密度推定の予測を組み合わせたものである。このデータセットを用いた実験結果から,評価されたGeo-FMがベースラインU-Netの性能を上回り得るか,場合によっては超えることを示した。
論文参考訳（メタデータ） (2025-06-12T21:29:20Z)
Performance and Generalizability Impacts of Incorporating Geolocation into Deep Learning for Dynamic PM2.5 Estimation [1.278093617645299]
我々は、最近発表されたディープラーニングに基づくPM2.5推定モデルに基づいて、アメリカ大陸で観測されたデータに対する最先端のパフォーマンスを実現する。位置情報をベースラインとして除外する3つの手法について検討し, 生の地理座標を用いて, 事前学習した位置情報エンコーダを活用する。
論文参考訳（メタデータ） (2025-05-24T02:00:34Z)
EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。 CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-04-28T02:41:12Z)
RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings [7.431269929582643]
RANGEと呼ばれる新しい検索戦略を提案する。本手法は,複数の類似した位置の視覚的特徴を組み合わせることで,位置の視覚的特徴を推定できるという直感に基づいて構築する。その結果、RANGEは既存の最先端モデルよりも優れており、多くのタスクにおいてかなりの差があることがわかった。
論文参考訳（メタデータ） (2025-02-27T05:45:51Z)
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
CV-Cities: Advancing Cross-View Geo-Localization in Global Cities [3.074201632920997]
クロスビュージオローカライゼーション(CVGL)は、地上画像の地理的位置を決定するために衛星画像のマッチングと検索を行う。この課題は, 視点の相違, 局所化シナリオの複雑化, グローバルなローカライゼーションの必要性など, 重大な課題に直面している。本稿では,基本モデルであるDINOv2と高度な機能ミキサーを統合した新しいCVGLフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-19T11:41:22Z)
TorchSpatial: A Location Encoding Framework and Benchmark for Spatial Representation Learning [36.725822223732635]
位置(ポイント)エンコーディングのための学習フレームワークとベンチマークであるTorchSpatialを提案する。 TorchSpatialには3つの重要なコンポーネントが含まれている: 1) 一般的に認識されている15のロケーションエンコーダを統合する統合されたロケーションエンコーダフレームワーク、2) LocBenchベンチマークタスクは、7つのジオアウェアイメージ分類と4つのジオアウェアイメージ回帰データセットを含む。
論文参考訳（メタデータ） (2024-06-21T21:33:16Z)
GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文参考訳（メタデータ） (2023-10-10T00:03:23Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文参考訳（メタデータ） (2023-09-04T13:44:50Z)
CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。 CSPは、様々なラベル付きトレーニングデータサンプリング比と10～34%の相対的な改善で、モデル性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-05-01T23:11:18Z)
GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。まず,地理的適応のための大規模データセットGeoNetを紹介する。第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文参考訳（メタデータ） (2023-03-27T17:59:34Z)
GSV-Cities: Toward Appropriate Supervised Visual Place Recognition [3.6739949215165164]
我々は,GSV-Citiesという画像データセットを紹介した。次に、位置認識に特化してネットワークをトレーニングするディープメトリックス学習の進歩の可能性について検討する。ピッツバーグ、Mapillary-SLS、SPED、Norlandといった大規模ベンチマークで、最先端の新たなベンチマークを確立します。
論文参考訳（メタデータ） (2022-10-19T01:39:29Z)
Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文参考訳（メタデータ） (2022-03-26T20:10:38Z)
Multi-Scale Representation Learning for Spatial Feature Distributions using Grid Cells [11.071527762096053]
本研究では,位置の絶対位置と空間的関係を符号化するスペース2Vecという表現学習モデルを提案する。その結果、Space2Vecはマルチスケール表現のため、確立されたMLアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-02-16T04:22:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。