論文の概要: Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2504.19373v3
- Date: Mon, 09 Jun 2025 20:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.950922
- Title: Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models
- Title(参考訳): レンズによるドキシング:マルチモーダル大共振モデルにおける位置関連プライバシー漏洩の解明
- Authors: Weidi Luo, Tianyu Lu, Qiming Zhang, Xiaogeng Liu, Bin Hu, Yue Zhao, Jieyu Zhao, Song Gao, Patrick McDaniel, Zhen Xiang, Chaowei Xiao,
- Abstract要約: 広告主は、ユーザ生成画像からセンシティブな位置情報を推測することができる。
DoxBenchは、さまざまなプライバシーシナリオを反映した500の現実世界の画像のキュレートされたデータセットである。
本研究は,MLRMにおける推論時プライバシーリスクの再評価の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 37.18986847375693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multi-modal large reasoning models (MLRMs) have shown significant ability to interpret complex visual content. While these models enable impressive reasoning capabilities, they also introduce novel and underexplored privacy risks. In this paper, we identify a novel category of privacy leakage in MLRMs: Adversaries can infer sensitive geolocation information, such as a user's home address or neighborhood, from user-generated images, including selfies captured in private settings. To formalize and evaluate these risks, we propose a three-level visual privacy risk framework that categorizes image content based on contextual sensitivity and potential for location inference. We further introduce DoxBench, a curated dataset of 500 real-world images reflecting diverse privacy scenarios. Our evaluation across 11 advanced MLRMs and MLLMs demonstrates that these models consistently outperform non-expert humans in geolocation inference and can effectively leak location-related private information. This significantly lowers the barrier for adversaries to obtain users' sensitive geolocation information. We further analyze and identify two primary factors contributing to this vulnerability: (1) MLRMs exhibit strong reasoning capabilities by leveraging visual clues in combination with their internal world knowledge; and (2) MLRMs frequently rely on privacy-related visual clues for inference without any built-in mechanisms to suppress or avoid such usage. To better understand and demonstrate real-world attack feasibility, we propose GeoMiner, a collaborative attack framework that decomposes the prediction process into two stages: clue extraction and reasoning to improve geolocation performance while introducing a novel attack perspective. Our findings highlight the urgent need to reassess inference-time privacy risks in MLRMs to better protect users' sensitive information.
- Abstract(参考訳): マルチモーダル大推論モデル(MLRM)の最近の進歩は、複雑な視覚的コンテンツを解釈する重要な能力を示している。
これらのモデルは印象的な推論機能を実現する一方で、新鮮で未調査のプライバシーリスクも導入している。
本稿では,MLRMにおける新たなプライバシリークのカテゴリを同定する: 広告主は,個人設定でキャプチャした自撮りを含むユーザ生成画像から,ユーザの住所や周辺地などのセンシティブな位置情報を推測することができる。
これらのリスクを形式化し、評価するために、文脈感度と位置推定の可能性に基づいて画像コンテンツを分類する3段階の視覚的プライバシーリスクフレームワークを提案する。
さらに、さまざまなプライバシーシナリオを反映した500の現実世界の画像のキュレートされたデータセットであるDoxBenchを紹介します。
11種類の高度MLRMおよびMLLMを用いて評価した結果,これらのモデルは位置推定において非熟練人間より一貫して優れており,位置関連個人情報を効果的に漏洩させることができることがわかった。
これにより、ユーザの機密位置情報を取得するための敵の障壁が大幅に低下する。
1)MLRMは、内部の知識と組み合わせて視覚的手がかりを活用することで、強力な推論能力を示し、(2)MLRMは、そのような使用を抑止・回避するためのビルトイン機構を使わずに、推論にプライバシー関連の視覚的手がかりを頻繁に依存する。
実世界の攻撃実現可能性をよりよく理解し、実証するために、新しい攻撃視点を導入しながら位置情報性能を向上させるための手がかり抽出と推論という、予測プロセスを2段階に分解する協調攻撃フレームワークであるGeoMinerを提案する。
本研究は,ユーザの機密情報をよりよく保護するために,MLRMにおける推論時のプライバシリスクを再評価する緊急の必要性を浮き彫りにした。
関連論文リスト
- Evaluating Precise Geolocation Inference Capabilities of Vision Language Models [0.0]
本稿では,Googleストリートビューから収集したベンチマークデータセットについて紹介する。
基礎モデルは単一画像の位置推定に基づいて評価され、その多くが300kmの中央値誤差を達成している。
さらに,補助具へのアクセスによりVLMの「エージェント」を評価し,最大30.6%の距離誤差を観察した。
論文 参考訳(メタデータ) (2025-02-20T09:59:28Z) - Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - Visual Privacy Auditing with Diffusion Models [47.0700328585184]
拡散モデル (DM) に基づく再構成攻撃を導入し, 現実画像への逆アクセスを前提としている。
その結果,(1) 実世界の過去のデータが再建の成功に大きく影響していること,(2) 現在の再建境界は, 過去のデータによるリスクをうまくモデル化せず, DMは, プライバシー漏洩を可視化するための監査ツールとして機能することがわかった。
論文 参考訳(メタデータ) (2024-03-12T12:18:55Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Membership Inference Attacks Against Text-to-image Generation Models [23.39695974954703]
本稿では,メンバシップ推論のレンズを用いたテキスト・画像生成モデルの最初のプライバシ解析を行う。
本稿では,メンバーシップ情報に関する3つの重要な直観と,それに応じて4つの攻撃手法を設計する。
提案した攻撃はいずれも大きな性能を達成でき、場合によっては精度が1に近い場合もあり、既存のメンバーシップ推論攻撃よりもはるかに深刻なリスクとなる。
論文 参考訳(メタデータ) (2022-10-03T14:31:39Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Privacy-Aware Adversarial Network in Human Mobility Prediction [11.387235721659378]
ユーザの再識別やその他の機密性の高い推論は、位置情報データがクラウド支援アプリケーションと共有される場合、主要なプライバシー上の脅威である。
LSTMに基づく逆表現学習により、元の位置情報データのプライバシー保護機能表現を実現する。
モビリティトレースのプライバシは、限界モビリティユーティリティーのコストで、まともな保護を達成できることを示します。
論文 参考訳(メタデータ) (2022-08-09T19:23:13Z) - Privacy-Aware Human Mobility Prediction via Adversarial Networks [10.131895986034314]
本研究では,LSTMをベースとした新たな逆方向学習機構を実装し,従来の位置情報データ(移動データ)のプライバシー保護機能表現を共有目的に実現した。
我々は,軌道再構成リスク,ユーザ再識別リスク,移動予測可能性の観点から,移動データセットのユーティリティプライバシトレードオフを定量化する。
論文 参考訳(メタデータ) (2022-01-19T10:41:10Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Robustness Threats of Differential Privacy [70.818129585404]
我々は、いくつかの設定で差分プライバシーをトレーニングしたネットワークが、非プライベートバージョンに比べてさらに脆弱であることを実験的に実証した。
本研究では,勾配クリッピングや雑音付加などのニューラルネットワークトレーニングの主成分が,モデルの堅牢性に与える影響について検討する。
論文 参考訳(メタデータ) (2020-12-14T18:59:24Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。