論文の概要: Granular Privacy Control for Geolocation with Vision Language Models
- arxiv url: http://arxiv.org/abs/2407.04952v2
- Date: Thu, 17 Oct 2024 14:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 23:35:45.228979
- Title: Granular Privacy Control for Geolocation with Vision Language Models
- Title(参考訳): 視覚言語モデルを用いた位置情報の粒度プライバシ制御
- Authors: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter,
- Abstract要約: GPTGeoChatと呼ばれる新しいベンチマークを開発し、ユーザとの位置情報対話を適度に行うビジョン言語モデルの能力をテストする。
我々は,室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集する。
位置情報が多すぎるかどうかを判断することで,GPT-4vの位置情報会話を適度に行う様々なVLMの能力を評価する。
- 参考スコア(独自算出の注目度): 36.3455665044992
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Language Models (VLMs) are rapidly advancing in their capability to answer information-seeking questions. As these models are widely deployed in consumer applications, they could lead to new privacy risks due to emergent abilities to identify people in photos, geolocate images, etc. As we demonstrate, somewhat surprisingly, current open-source and proprietary VLMs are very capable image geolocators, making widespread geolocation with VLMs an immediate privacy risk, rather than merely a theoretical future concern. As a first step to address this challenge, we develop a new benchmark, GPTGeoChat, to test the ability of VLMs to moderate geolocation dialogues with users. We collect a set of 1,000 image geolocation conversations between in-house annotators and GPT-4v, which are annotated with the granularity of location information revealed at each turn. Using this new dataset, we evaluate the ability of various VLMs to moderate GPT-4v geolocation conversations by determining when too much location information has been revealed. We find that custom fine-tuned models perform on par with prompted API-based models when identifying leaked location information at the country or city level; however, fine-tuning on supervised data appears to be needed to accurately moderate finer granularities, such as the name of a restaurant or building.
- Abstract(参考訳): 視覚言語モデル(VLM)は、情報検索の質問に答える能力において急速に進歩している。
これらのモデルはコンシューマー向けアプリケーションに広くデプロイされているため、写真内の人物を特定したり、画像の位置を測ったりすることで、新たなプライバシーリスクにつながる可能性がある。
驚くべきことに、現在のオープンソースおよびプロプライエタリなVLMは、非常に有能な画像測位器であり、VLMによる広範な位置情報は、単なる理論的な将来的な懸念ではなく、すぐにプライバシー上のリスクとなる。
この課題に対処する第一歩として,ユーザとの位置情報対話を適度に行うVLMの能力をテストするため,新しいベンチマークであるGPTGeoChatを開発した。
室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集し、各ターンに表示される位置情報の粒度にアノテートする。
新たなデータセットを用いて、位置情報が多すぎるかどうかを判断することで、様々なVLMがGPT-4vの位置情報通信を適度に行う能力を評価する。
カスタムの微調整モデルは、国や都市レベルで漏洩した位置情報を特定する際に、誘導されたAPIベースのモデルと同等に動作するが、レストランや建物の名前など、より細かい粒度を正確に調整するためには、教師付きデータによる微調整が必要である。
関連論文リスト
- Evaluating Precise Geolocation Inference Capabilities of Vision Language Models [0.0]
本稿では,Googleストリートビューから収集したベンチマークデータセットについて紹介する。
基礎モデルは単一画像の位置推定に基づいて評価され、その多くが300kmの中央値誤差を達成している。
さらに,補助具へのアクセスによりVLMの「エージェント」を評価し,最大30.6%の距離誤差を観察した。
論文 参考訳(メタデータ) (2025-02-20T09:59:28Z) - Image-based Geo-localization for Robotics: Are Black-box Vision-Language Models there yet? [25.419763184667985]
VLM(Vision-Language Model)は、画像ジオローカライゼーションを含むロボットアプリケーションにエキサイティングな機会を提供する。
近年の研究では、VLMをジオローカライゼーションのための埋め込み抽出器として利用することに焦点を当てている。
本稿では,最先端のVLMをスタンドアローン・ゼロショット・ジオローカライズシステムとしての可能性について検討する。
論文 参考訳(メタデータ) (2025-01-28T13:46:01Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、視覚条件、オブジェクトタイプ、スケールのさまざまなバリエーションをカバーしています。
地理空間内での精度を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - GeoLocator: a location-integrated large multimodal model for inferring
geo-privacy [6.7452045691798945]
本研究はGeoLocatorというGPT-4に基づく位置積分モデルを開発した。
実験により、GeoLocatorは特定の地理的詳細を高精度に生成することが明らかとなった。
我々はGeoLocatorの幅広い意味と、個人やコミュニティ全体に対する我々の発見を結論づける。
論文 参考訳(メタデータ) (2023-11-21T21:48:51Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。