論文の概要: GEO-Detective: Unveiling Location Privacy Risks in Images with LLM Agents
- arxiv url: http://arxiv.org/abs/2511.22441v1
- Date: Thu, 27 Nov 2025 13:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.58046
- Title: GEO-Detective: Unveiling Location Privacy Risks in Images with LLM Agents
- Title(参考訳): GEO-Detective: LLMエージェントを用いた画像における位置プライバシーリスクの発見
- Authors: Xinyu Zhang, Yixin Wu, Boyang Zhang, Chenhao Lin, Chao Shen, Michael Backes, Yang Zhang,
- Abstract要約: 画像位置推定のための人間の推論とツール使用を模倣するエージェントであるGeo-Detectiveを提案する。
画像の難易度に基づいて戦略を適応的に選択する4段階の手順に従う。
視覚的リバースサーチのような特殊なツールを備えており、人間が外部の地理的手がかりを収集する方法をエミュレートする。
- 参考スコア(独自算出の注目度): 40.59860671244798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Images shared on social media often expose geographic cues. While early geolocation methods required expert effort and lacked generalization, the rise of Large Vision Language Models (LVLMs) now enables accurate geolocation even for ordinary users. However, existing approaches are not optimized for this task. To explore the full potential and associated privacy risks, we present Geo-Detective, an agent that mimics human reasoning and tool use for image geolocation inference. It follows a procedure with four steps that adaptively selects strategies based on image difficulty and is equipped with specialized tools such as visual reverse search, which emulates how humans gather external geographic clues. Experimental results show that GEO-Detective outperforms baseline large vision language models (LVLMs) overall, particularly on images lacking visible geographic features. In country level geolocation tasks, it achieves an improvement of over 11.1% compared to baseline LLMs, and even at finer grained levels, it still provides around a 5.2% performance gain. Meanwhile, when equipped with external clues, GEO-Detective becomes more likely to produce accurate predictions, reducing the "unknown" prediction rate by more than 50.6%. We further explore multiple defense strategies and find that Geo-Detective exhibits stronger robustness, highlighting the need for more effective privacy safeguards.
- Abstract(参考訳): ソーシャルメディアで共有された画像は、しばしば地理的手がかりを公開する。
初期の位置決め手法は専門的な努力を必要とし、一般化を欠いていたが、LVLM(Large Vision Language Models)の台頭により、一般ユーザでも正確な位置決めが可能になった。
しかし、既存のアプローチはこのタスクに最適化されていない。
人間の推論と画像位置推定ツールを模倣するエージェントであるGeo-Detectiveを提案する。
画像の難易度に基づいて戦略を適応的に選択する4段階の手順に従い、人間が外部の地理的手がかりを収集する方法をエミュレートする視覚的リバースサーチのような特殊なツールを備える。
実験結果から,GEO-DetectiveはLVLM(ベースライン・大型視覚言語モデル)よりも優れており,特に視認できる地理的特徴が欠如していることが示唆された。
国レベルでのジオロケーションタスクでは、ベースラインのLDMに比べて11.1%以上の改善を実現しており、きめ細かいレベルでもパフォーマンスが5.2%向上している。
一方、外部の手がかりを備えると、GEO-Detectiveは正確な予測をしやすくなり、「未知」予測率を50.6%以上削減する。
我々はさらに複数の防衛戦略を探求し、Geo-Detectiveはより強力な堅牢性を示し、より効果的なプライバシー保護の必要性を強調している。
関連論文リスト
- GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - VLM-Guided Visual Place Recognition for Planet-Scale Geo-Localization [24.433604332415204]
本稿では,視覚言語モデルと視覚的位置認識の強みを融合した,新しいハイブリッドなジオローカライゼーションフレームワークを提案する。
我々は,複数のジオローカライゼーションベンチマークに対するアプローチを評価し,従来手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T12:23:03Z) - GaGA: Towards Interactive Global Geolocation Assistant [20.342366228855735]
GaGAは大きな視覚言語モデル(LVLM)上に構築された対話型グローバルジオロケーションアシスタントである
画像中の地理的手がかりを発見し、LVLMに埋め込まれた広い世界知識と組み合わせて位置情報を決定する。
GaGAはGWS15kデータセットの最先端のパフォーマンスを達成し、国レベルでは4.57%、都市レベルでは2.92%の精度を向上している。
論文 参考訳(メタデータ) (2024-12-12T03:39:44Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。