論文の概要: GeoLocSFT: Efficient Visual Geolocation via Supervised Fine-Tuning of Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2506.01277v1
- Date: Mon, 02 Jun 2025 03:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.019607
- Title: GeoLocSFT: Efficient Visual Geolocation via Supervised Fine-Tuning of Multimodal Foundation Models
- Title(参考訳): GeoLocSFT:マルチモーダルファンデーションモデルの細調整による効率的なビジュアルジオロケーション
- Authors: Qiang Yi, Lianlei Shan,
- Abstract要約: GeoLocSFTは、地理的に多様なMR600kデータセットから慎重に選択されたイメージ-GPSペアでトレーニングされています。
この制限されたデータにもかかわらず、私たちのSFT中心のアプローチはベースラインモデルを大幅に改善します。
本研究は,惑星規模の画像測位における高品質の監督と効率的なSFTの能力を明らかにするものである。
- 参考スコア(独自算出の注目度): 4.956977275061966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately determining the geographic location where a single image was taken, visual geolocation, remains a formidable challenge due to the planet's vastness and the deceptive similarity among distant locations. We introduce GeoLocSFT, a framework that demonstrates how targeted supervised fine-tuning (SFT) of a large multimodal foundation model (Gemma 3) using a small, high-quality dataset can yield highly competitive geolocation performance. GeoLocSFT is trained with only 2700 carefully selected image-GPS pairs from our geographically diverse MR600k dataset. Despite this limited data, our SFT-centric approach substantially improves over baseline models and achieves robust results on standard benchmarks such as Im2GPS-3k and YFCC-4k, as well as on our newly proposed and challenging MR40k benchmark, aimed specifically at sparsely populated regions. Further, we explore multi-candidate inference and aggregation strategies but find that the core gains are already realized at the SFT stage. Our findings highlight the power of high-quality supervision and efficient SFT for planet-scale image geolocation, especially when compared to prior methods that require massive databases or complex pipelines. To foster further research, we publicly release the MR40k benchmark dataset.
- Abstract(参考訳): 単一の画像が撮影された場所、視覚的な位置を正確に決定することは、惑星の広さと、遠く離れた場所との偽りの類似性のために、依然として非常に難しい課題である。
我々はGeoLocSFT(GeoLocSFT)という,大規模マルチモーダルファウンデーションモデル(Gemma 3)をターゲットとした微調整(SFT)を行うフレームワークを紹介した。
GeoLocSFTは、地理的に多様なMR600kデータセットから慎重に選択されたイメージ-GPSペアでトレーニングされています。
この制限されたデータにもかかわらず、私たちのSFT中心のアプローチはベースラインモデルを大幅に改善し、Im2GPS-3kやYFCC-4kのような標準ベンチマークや、人口の少ない地域を対象とした新しいMR40kベンチマークで堅牢な結果を得る。
さらに,マルチ候補推論と集約戦略について検討するが,SFT段階ではコアゲインがすでに実現されている。
以上の結果から,特に大規模データベースや複雑なパイプラインを必要とする従来の手法と比較して,惑星規模の画像位置決めのための高品質な監視と効率的なSFTの能力を強調した。
さらなる研究を促進するため、MR40kベンチマークデータセットを公開しています。
関連論文リスト
- GeoChain: Multimodal Chain-of-Thought for Geographic Reasoning [0.0]
GeoChainはマルチモーダル大言語モデル(MLLM)におけるステップバイステップの地理的推論を評価するためのベンチマークである
それぞれの画像を21ステップのチェーン・オブ・シークレット(CoT)質問シーケンス(3000万以上のQ&Aペア)とペアリングする。
これらのシーケンスは、粗い属性から4つの推論カテゴリにわたるきめ細かい局所化までモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T02:24:46Z) - GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [30.983556433953076]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-19T21:04:46Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。
MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。
提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。