論文の概要: MarsRetrieval: Benchmarking Vision-Language Models for Planetary-Scale Geospatial Retrieval on Mars
- arxiv url: http://arxiv.org/abs/2602.13961v1
- Date: Sun, 15 Feb 2026 02:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.580919
- Title: MarsRetrieval: Benchmarking Vision-Language Models for Planetary-Scale Geospatial Retrieval on Mars
- Title(参考訳): MarsRetrieval: 火星における惑星規模の地理空間検索のためのビジョンランゲージモデルのベンチマーク
- Authors: Shuoyuan Wang, Yiran Wang, Hongxin Wei,
- Abstract要約: 火星の地理空間探索のための視覚言語モデルを評価するためのベンチマークであるMarsRetrievalを紹介する。
マルチモーダル埋め込みアーキテクチャをベンチマークするための統合検索中心プロトコルを提案する。
我々の評価では、MarsRetrievalは困難であり、強力な基礎モデルでさえしばしばドメイン固有の地形的区別を捉えない。
- 参考スコア(独自算出の注目度): 21.01507072531742
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Data-driven approaches like deep learning are rapidly advancing planetary science, particularly in Mars exploration. Despite recent progress, most existing benchmarks remain confined to closed-set supervised visual tasks and do not support text-guided retrieval for geospatial discovery. We introduce MarsRetrieval, a retrieval benchmark for evaluating vision-language models for Martian geospatial discovery. MarsRetrieval includes three tasks: (1) paired image-text retrieval, (2) landform retrieval, and (3) global geo-localization, covering multiple spatial scales and diverse geomorphic origins. We propose a unified retrieval-centric protocol to benchmark multimodal embedding architectures, including contrastive dual-tower encoders and generative vision-language models. Our evaluation shows MarsRetrieval is challenging: even strong foundation models often fail to capture domain-specific geomorphic distinctions. We further show that domain-specific fine-tuning is critical for generalizable geospatial discovery in planetary settings. Our code is available at https://github.com/ml-stat-Sustech/MarsRetrieval
- Abstract(参考訳): 深層学習のようなデータ駆動のアプローチは惑星科学、特に火星探査において急速に進歩している。
近年の進歩にもかかわらず、既存のベンチマークのほとんどはクローズドセットの視覚タスクに限定されており、地理空間探索のためのテキスト誘導検索をサポートしていない。
火星の地理空間探索のための視覚言語モデルを評価するためのベンチマークであるMarsRetrievalを紹介する。
MarsRetrievalには、(1)ペア画像テキスト検索、(2)ランドフォーム検索、(3)グローバルジオローカライゼーションの3つのタスクが含まれており、複数の空間スケールと多様なジオモーフィックな起源をカバーしている。
本稿では,マルチモーダル埋め込みアーキテクチャをベンチマークする統合検索中心プロトコルを提案する。
私たちの評価では、MarsRetrievalは難しい。強力な基礎モデルでさえ、ドメイン固有の地形的区別を捉えることができないことが多い。
さらに, 領域固有の微調整が, 惑星環境における地空間発見の一般化に重要であることを示す。
私たちのコードはhttps://github.com/ml-stat-Sustech/MarsRetrievalで利用可能です。
関連論文リスト
- Natural Language-Driven Global Mapping of Martian Landforms [25.54158424879149]
MarScopeは、火星の地形の自然言語駆動でラベルなしマッピングを可能にするビジョン言語フレームワークである。
惑星の画像とテキストを共有セマンティック空間に整列させ、20万以上のキュレートされた画像とテキストのペアで訓練する。
このフレームワークは、事前に定義された分類をフレキシブルなセマンティック検索に置き換えることで、火星のグローバルな地形図を変換する。
論文 参考訳(メタデータ) (2026-01-22T13:38:13Z) - Mars-Bench: A Benchmark for Evaluating Foundation Models for Mars Science Tasks [7.399515278460871]
他の領域における進歩の鍵となるのは、体系的な評価をサポートする標準化されたベンチマークが利用可能になったことである。
火星に関する幅広いタスクのモデルを体系的に評価するために設計された最初のベンチマークであるMars-Benchを紹介する。
我々は、自然画像、地球衛星データ、最先端のビジョン言語モデルに基づいて事前訓練されたモデルを用いて、標準化された、使用可能なデータセットとベースライン評価を提供する。
論文 参考訳(メタデータ) (2025-10-28T02:34:08Z) - Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality [0.0]
訓練は、NASAのHiRISE調査から得られた12000個の火星高度マップで実施された。
非均一な再スケーリング戦略は、固定された128x128モデル解像度にリサイズする前に、複数のスケールにわたる地形の特徴をキャプチャする。
その結果,本手法は再建精度(RMSEでは4~15%)と知覚的類似性(LPIPSでは29~81%)において,元のデータより一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-16T15:02:05Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - Martian World Models: Controllable Video Synthesis with Physically Accurate 3D Reconstructions [116.56517155163716]
本研究では,実際のステレオナビゲーション画像から3次元火星環境を再構築するデータキュレーションパイプラインを提案する。
火星の地形ビデオジェネレータMarsGenは、データにエンコードされた3D構造と視覚的にリアルで幾何学的に整合した新しいビデオを合成する。
提案手法は、地上データセットで訓練された映像合成モデルより優れ、優れた視覚的忠実度と3次元構造整合性を実現する。
論文 参考訳(メタデータ) (2025-07-10T17:54:27Z) - TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - TorchSpatial: A Location Encoding Framework and Benchmark for Spatial Representation Learning [36.725822223732635]
位置(ポイント)エンコーディングのための学習フレームワークとベンチマークであるTorchSpatialを提案する。
TorchSpatialには3つの重要なコンポーネントが含まれている: 1) 一般的に認識されている15のロケーションエンコーダを統合する統合されたロケーションエンコーダフレームワーク、2) LocBenchベンチマークタスクは7つのジオアウェアイメージ分類と10のジオアウェアイメージ回帰データセットを含む。
論文 参考訳(メタデータ) (2024-06-21T21:33:16Z) - ConeQuest: A Benchmark for Cone Segmentation on Mars [9.036303895516745]
ConeQuestは、火星の円錐を識別する最初の専門家による公開データセットである。
本研究では,(i)空間一般化と(ii)コーンサイズ一般化という2つのベンチマークタスクを提案する。
論文 参考訳(メタデータ) (2023-11-15T02:33:08Z) - Towards Robust Monocular Visual Odometry for Flying Robots on Planetary
Missions [49.79068659889639]
火星に着陸したばかりのIngenuityは、トラバーサビリティの影響を受けない新時代の探検の始まりとなるでしょう。
高速な光フロートラッキングを用いた高能率単分子オードメトリーアルゴリズムを提案する。
また、相対翻訳情報行列の主成分分析に基づいて、スケールドリフトの現在のリスクを推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-12T12:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。