論文の概要: MobCLIP: Learning General-purpose Geospatial Representation at Scale
- arxiv url: http://arxiv.org/abs/2506.01297v2
- Date: Tue, 03 Jun 2025 16:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.025638
- Title: MobCLIP: Learning General-purpose Geospatial Representation at Scale
- Title(参考訳): MobCLIP: 大規模で汎用的な地理空間表現の学習
- Authors: Ya Wen, Jixuan Cai, Qiyao Ma, Linyan Li, Xinhua Chen, Chris Webster, Yulun Zhou,
- Abstract要約: 全国初の汎用位置情報エンコーダであるMobCLIPについて紹介する。
新たなCLIPベースのアーキテクチャを採用することで、1億以上のPOI、全国的なリモートセンシング画像、および10億のエッジモビリティグラフによる構造化された人口統計を調整できる。
我々は,MobCLIPが最先端モデルよりも平均35%優れた汎用予測性能を実現することを示した。
- 参考スコア(独自算出の注目度): 0.7224497621488285
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Representation learning of geospatial locations remains a core challenge in achieving general geospatial intelligence. Current embedding methods often lack versatility, limiting their utility across diverse tasks in both human and natural domains. We present MobCLIP, the first nationwide general-purpose location encoder, integrating an unprecedented diversity of data modalities through effective and scalable multimodal fusion. Adopting a novel CLIP-based architecture, our framework aligns 100M+ POIs, nationwide remote sensing imagery, and structured demographic statistics with a billion-edge mobility graph. By tokenizing spatial locations into grid cells inspired by Vision Transformers, we establish a unified representation space bridging mobility patterns and multimodal features. To rigorously evaluate the general-purpose effectiveness of MobCLIP, we construct a benchmark dataset composed of 11 downstream prediction tasks across social, economic, and natural domains. Experiments show that MobCLIP, with four input modalities and a compact 128-dimensional representation space, achieves significantly superior general-purpose predictive performances than state-of-the-art models by an average of 35%. Thanks to the effective integration of human-centric modalities, the performance gain is particularly profound in human-centric tasks, such as energy consumption (+260%), offline retail consumption amount (+98%), and crime cases (+95%) predictions. Echoing LLM scaling laws, we further demonstrate the scaling behavior in geospatial representation learning. We open-source code and pretrained models at: github.com.
- Abstract(参考訳): 地理空間的位置の表現学習は、一般的な地理空間的知性を達成する上で、依然として重要な課題である。
現在の埋め込み方式は多目的性に欠けることが多く、人間と自然の両方の領域で様々なタスクにまたがる有用性を制限している。
本報告では,データモダリティの多様性を効果的かつスケーラブルなマルチモーダル融合により統合した,全国初の汎用ロケーションエンコーダであるMobCLIPについて述べる。
新たなCLIPベースのアーキテクチャを採用することで、1億以上のPOI、全国的なリモートセンシング画像、および10億のエッジモビリティグラフによる構造化された人口統計を調整できる。
視覚変換器にインスパイアされた格子状セルに空間的位置をトークン化することにより,モビリティパターンとマルチモーダル特徴をブリッジする統一表現空間を確立する。
MobCLIPの汎用性を評価するため,社会,経済,自然領域にまたがる11の下流予測タスクからなるベンチマークデータセットを構築した。
実験の結果,MobCLIPは4つの入力モダリティと128次元のコンパクトな表現空間を持ち,最先端モデルよりも平均35%優れた汎用予測性能が得られることがわかった。
人中心のモダリティの効果的な統合により、エネルギー消費(+260%)、オフライン小売消費量(+98%)、犯罪ケース(+95%)予測などの人中心的なタスクにおいて、パフォーマンスの向上は特に重要である。
LLMスケーリング法則に則り、地理空間表現学習におけるスケーリングの挙動をさらに実証する。
私たちは、github.comで、コードと事前訓練されたモデルをオープンソースにしています。
関連論文リスト
- WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。
多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。
1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-15T17:38:37Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [51.834607121538724]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings [7.431269929582643]
RANGEと呼ばれる新しい検索戦略を提案する。
本手法は,複数の類似した位置の視覚的特徴を組み合わせることで,位置の視覚的特徴を推定できるという直感に基づいて構築する。
その結果、RANGEは既存の最先端モデルよりも優れており、多くのタスクにおいてかなりの差があることがわかった。
論文 参考訳(メタデータ) (2025-02-27T05:45:51Z) - Federated Multi-Agent Mapping for Planetary Exploration [0.4143603294943439]
本稿では,エージェント間のグローバルマップモデルを生データを送信することなく,協調的にトレーニングするフェデレーション型マルチエージェントマッピング手法を提案する。
提案手法は暗黙的ニューラルマッピングを利用してパシモニアスで適応可能な表現を生成し,生のマップと比較して最大93.8%のデータを伝送する。
我々は,火星の地形や氷河のデータセットに対するアプローチの有効性を実証し,F1スコアを0.95ポイントまで下方経路計画を達成するとともに,地図の復元損失に勝る結果を得た。
論文 参考訳(メタデータ) (2024-04-02T20:32:32Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - City Foundation Models for Learning General Purpose Representations from OpenStreetMap [16.09047066527081]
本稿では,都市のような選択された地理的関心領域における基礎モデルをトレーニングするためのフレームワークであるCityFMを紹介する。
CityFMはOpenStreetMapからのオープンデータにのみ依存し、異なるタイプのエンティティ、空間、視覚、およびテキスト情報のマルチモーダル表現を生成する。
すべての実験において、CityFMはベースラインに匹敵する、あるいは同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-01T05:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。