論文の概要: Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?
- arxiv url: http://arxiv.org/abs/2602.05023v1
- Date: Wed, 04 Feb 2026 20:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.602284
- Title: Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?
- Title(参考訳): 視覚言語モデルでは位置情報開示における文脈的統合性は無視されるか?
- Authors: Ruixin Yang, Ethan Mendes, Arthur Wang, James Hays, Sauvik Das, Wei Xu, Alan Ritter,
- Abstract要約: 視覚言語モデル (VLM) は画像位置情報において高い性能を示した。
これは、カジュアルに共有された写真からセンシティブな場所を推測するために悪用されるため、重大なプライバシーリスクを引き起こす。
VLM-GEOPRIVACY(VLM-GEOPRIVACY)は、実世界の画像に潜伏する社会的規範や文脈的手がかりを解釈するために、VLMに挑戦するベンチマークである。
- 参考スコア(独自算出の注目度): 35.91273000038155
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) have demonstrated strong performance in image geolocation, a capability further sharpened by frontier multimodal large reasoning models (MLRMs). This poses a significant privacy risk, as these widely accessible models can be exploited to infer sensitive locations from casually shared photos, often at street-level precision, potentially surpassing the level of detail the sharer consented or intended to disclose. While recent work has proposed applying a blanket restriction on geolocation disclosure to combat this risk, these measures fail to distinguish valid geolocation uses from malicious behavior. Instead, VLMs should maintain contextual integrity by reasoning about elements within an image to determine the appropriate level of information disclosure, balancing privacy and utility. To evaluate how well models respect contextual integrity, we introduce VLM-GEOPRIVACY, a benchmark that challenges VLMs to interpret latent social norms and contextual cues in real-world images and determine the appropriate level of location disclosure. Our evaluation of 14 leading VLMs shows that, despite their ability to precisely geolocate images, the models are poorly aligned with human privacy expectations. They often over-disclose in sensitive contexts and are vulnerable to prompt-based attacks. Our results call for new design principles in multimodal systems to incorporate context-conditioned privacy reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像位置情報において強力な性能を示しており、フロンティア・マルチモーダル大推論モデル(MLRM)によってさらに強化されている。
これらの広くアクセス可能なモデルは、カジュアルに共有された写真から、しばしばストリートレベルの精度で機密性の高い場所を推測するために利用でき、株主が同意または開示する意図した詳細レベルを超える可能性がある。
近年の研究では、このリスクに対処するために位置情報開示の制限を適用することを提案したが、これらの措置は、有効な位置情報の使用と悪意のある行動の区別に失敗した。
代わりにVLMは、画像内の要素を推論して適切なレベルの情報開示、プライバシーとユーティリティのバランスを決定することによって、コンテキスト整合性を維持する必要がある。
VLM-GEOPRIVACY(VLM-GEOPRIVACY)は,実世界の画像に潜伏する社会的規範や文脈的手がかりを解釈し,適切な位置開示レベルを決定するために,VLMに挑戦するベンチマークである。
VLMを14個評価したところ、画像の正確な位置決め能力にもかかわらず、モデルが人間のプライバシの期待に合致していないことが判明した。
センシティブな文脈でしばしば過剰に開示され、プロンプトベースの攻撃に対して脆弱である。
この結果から,コンテキスト条件付きプライバシ推論を取り入れたマルチモーダルシステムにおける新たな設計原則が求められた。
関連論文リスト
- Beyond Pixels: Semantic-aware Typographic Attack for Geo-Privacy Protection [43.65944873827891]
大規模ビジュアル言語モデル(LVLM)は、ソーシャルメディアユーザーの位置情報を直接共有画像から推測し、意図しないプライバシー漏洩を引き起こす。
逆画像摂動は、地理的プライバシー保護の潜在的方向を提供するが、LVLMに対して有効となるためには比較的強い歪みを必要とする。
視覚的コンテンツの外部にテキスト拡張を追加することで、地理的プライバシーを保護するための有望な方向として、偽装攻撃を識別する。
論文 参考訳(メタデータ) (2025-11-16T12:27:59Z) - Assessing the Geolocation Capabilities, Limitations and Societal Risks of Generative Vision-Language Models [11.444835352261002]
ジオローカライゼーション(Geo-localization)とは、視覚的手がかりだけで画像の位置を特定するタスクである。
VLM(Vision-Language Models)は、正確な画像ジオロケータとして機能する傾向にある。
これにより、ストーキングや監視など、プライバシー上の重大なリスクが生じる。
論文 参考訳(メタデータ) (2025-08-27T15:21:31Z) - GeoShield: Safeguarding Geolocation Privacy from Vision-Language Models via Adversarial Perturbations [48.78781663571235]
VLM(Vision-Language Models)は、パブリック共有画像からユーザの位置を推測し、ジオプライバシーに重大なリスクをもたらす。
実世界のシナリオにおいて,ロバストなジオプライバシー保護のために設計された,新しい敵対的フレームワークであるGeoShieldを提案する。
論文 参考訳(メタデータ) (2025-08-05T08:37:06Z) - Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文 参考訳(メタデータ) (2025-05-02T06:51:11Z) - Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models [37.18986847375693]
広告主は、ユーザ生成画像からセンシティブな位置情報を推測することができる。
DoxBenchは、さまざまなプライバシーシナリオを反映した500の現実世界の画像のキュレートされたデータセットである。
本研究は,MLRMにおける推論時プライバシーリスクの再評価の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-04-27T22:26:45Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Private Attribute Inference from Images with Vision-Language Models [2.9373912230684565]
視覚言語モデル(VLM)は、画像とテキストの両方を理解することができる。
我々は7つの最先端のVLMを評価し、最大77.6%の精度で様々な個人属性を推測できることを発見した。
モデルの一般的な能力で精度がスケールすることが観察され、将来のモデルはより強い推論の敵として誤用される可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-16T14:42:49Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。