論文の概要: CLIP the Landscape: Automated Tagging of Crowdsourced Landscape Images
- arxiv url: http://arxiv.org/abs/2506.12214v1
- Date: Fri, 13 Jun 2025 20:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.486822
- Title: CLIP the Landscape: Automated Tagging of Crowdsourced Landscape Images
- Title(参考訳): CLIP the Landscape: クラウドソーシングされたランドスケープイメージの自動タグ
- Authors: Ilya Ilyankou, Natchapon Jongwiriyanurak, Tao Cheng, James Haworth,
- Abstract要約: ランドスケープ写真から地理的コンテキストタグを予測するためのCLIPベースのマルチモーダルマルチラベル分類器を提案する。
位置埋め込みとタイトル埋め込みを画像特徴と組み合わせることで,画像埋め込みを単独で使用するよりも精度が向上することを示す。
- 参考スコア(独自算出の注目度): 0.5999777817331317
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a CLIP-based, multi-modal, multi-label classifier for predicting geographical context tags from landscape photos in the Geograph dataset--a crowdsourced image archive spanning the British Isles, including remote regions lacking POIs and street-level imagery. Our approach addresses a Kaggle competition\footnote{https://www.kaggle.com/competitions/predict-geographic-context-from-landscape-photos} task based on a subset of Geograph's 8M images, with strict evaluation: exact match accuracy is required across 49 possible tags. We show that combining location and title embeddings with image features improves accuracy over using image embeddings alone. We release a lightweight pipeline\footnote{https://github.com/SpaceTimeLab/ClipTheLandscape} that trains on a modest laptop, using pre-trained CLIP image and text embeddings and a simple classification head. Predicted tags can support downstream tasks such as building location embedders for GeoAI applications, enriching spatial understanding in data-sparse regions.
- Abstract(参考訳): 我々は、イギリス諸島をまたがるクラウドソース画像アーカイブであるGeographデータセットのランドスケープ写真から、地理コンテキストタグを予測するためのCLIPベースのマルチモーダルマルチラベル分類器を提案する。
我々のアプローチは、Geographの8M画像のサブセットに基づいて、Kaggle competition\footnote{https://www.kaggle.com/competitions/predict-geographic-context-from-landscape-photos}タスクに対処する。
位置埋め込みとタイトル埋め込みを画像特徴と組み合わせることで,画像埋め込みを単独で使用するよりも精度が向上することを示す。
私たちは、トレーニング済みのCLIPイメージとテキスト埋め込みと単純な分類ヘッドを使用して、控えめなラップトップでトレーニングする軽量パイプライン{https://github.com/SpaceTimeLab/ClipTheLandscape}をリリースします。
予測タグは、GeoAIアプリケーションのためのロケーション埋め込みの構築、データスパース領域における空間的理解の強化など、下流タスクをサポートすることができる。
関連論文リスト
- GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - GAMa: Cross-view Video Geo-localization [68.33955764543465]
我々は、文脈的手がかりを提供する画像ではなく、地上ビデオに焦点を当てている。
クリップレベルでは、短いビデオクリップと対応する空中画像が一致し、後に長いビデオの動画レベルのジオローカライズを得るために使用される。
提案手法は,トップ1リコール率19.4%,45.1%@1.0マイルを達成する。
論文 参考訳(メタデータ) (2022-07-06T04:25:51Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。