論文の概要: Doxing via the Lens: Revealing Privacy Leakage in Image Geolocation for Agentic Multi-Modal Large Reasoning Model
- arxiv url: http://arxiv.org/abs/2504.19373v2
- Date: Tue, 29 Apr 2025 12:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.258666
- Title: Doxing via the Lens: Revealing Privacy Leakage in Image Geolocation for Agentic Multi-Modal Large Reasoning Model
- Title(参考訳): レンズによるドキシング:エージェント多モード大共振モデルのための画像位置情報におけるプライバシー漏洩の発見
- Authors: Weidi Luo, Qiming Zhang, Tianyu Lu, Xiaogeng Liu, Yue Zhao, Zhen Xiang, Chaowei Xiao,
- Abstract要約: ChatGPT o3は精度の高いユーザ位置を予測でき、60%のケースで街路レベルの精度(1マイル)を達成することができる。
本研究は,エージェント型マルチモーダル大推論モデルにおいて,プライバシに配慮した緊急開発の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 31.245820767782792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing capabilities of agentic multi-modal large reasoning models, such as ChatGPT o3, have raised critical concerns regarding privacy leakage through inadvertent image geolocation. In this paper, we conduct the first systematic and controlled study on the potential privacy risks associated with visual reasoning abilities of ChatGPT o3. We manually collect and construct a dataset comprising 50 real-world images that feature individuals alongside privacy-relevant environmental elements, capturing realistic and sensitive scenarios for analysis. Our experimental evaluation reveals that ChatGPT o3 can predict user locations with high precision, achieving street-level accuracy (within one mile) in 60% of cases. Through analysis, we identify key visual cues, including street layout and front yard design, that significantly contribute to the model inference success. Additionally, targeted occlusion experiments demonstrate that masking critical features effectively mitigates geolocation accuracy, providing insights into potential defense mechanisms. Our findings highlight an urgent need for privacy-aware development for agentic multi-modal large reasoning models, particularly in applications involving private imagery.
- Abstract(参考訳): ChatGPT o3のようなエージェント型マルチモーダル大推論モデルの能力の増大は、不注意な画像位置情報によるプライバシー漏洩に関する重要な懸念を引き起こしている。
本稿では,ChatGPT o3の視覚的推論能力に関連する潜在的なプライバシーリスクに関する,初めて体系的で制御された研究を行う。
我々は、プライバシー関連環境要素と並行して個人を特徴付ける50の現実世界の画像からなるデータセットを手動で収集、構築し、分析のための現実的でセンシティブなシナリオをキャプチャする。
実験の結果,ChatGPT o3は精度の高いユーザ位置を予測でき,道路レベルの精度(約1マイル)を60%のケースで達成できることがわかった。
分析により,道路レイアウトや前庭デザインなどの重要な視覚的手がかりを同定し,モデル推論の成功に大きく貢献する。
さらに、標的オクルージョン実験は、マスキングの重要な特徴が地理的位置の精度を効果的に軽減し、潜在的な防御機構に関する洞察を与えることを示した。
本研究は, エージェント型マルチモーダル大推論モデル, 特にプライベート画像を含むアプリケーションにおいて, プライバシを意識した緊急開発の必要性を浮き彫りにするものである。
関連論文リスト
- Evaluating Precise Geolocation Inference Capabilities of Vision Language Models [0.0]
本稿では,Googleストリートビューから収集したベンチマークデータセットについて紹介する。
基礎モデルは単一画像の位置推定に基づいて評価され、その多くが300kmの中央値誤差を達成している。
さらに,補助具へのアクセスによりVLMの「エージェント」を評価し,最大30.6%の距離誤差を観察した。
論文 参考訳(メタデータ) (2025-02-20T09:59:28Z) - Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - Visual Privacy Auditing with Diffusion Models [47.0700328585184]
拡散モデル (DM) に基づく再構成攻撃を導入し, 現実画像への逆アクセスを前提としている。
その結果,(1) 実世界の過去のデータが再建の成功に大きく影響していること,(2) 現在の再建境界は, 過去のデータによるリスクをうまくモデル化せず, DMは, プライバシー漏洩を可視化するための監査ツールとして機能することがわかった。
論文 参考訳(メタデータ) (2024-03-12T12:18:55Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Membership Inference Attacks Against Text-to-image Generation Models [23.39695974954703]
本稿では,メンバシップ推論のレンズを用いたテキスト・画像生成モデルの最初のプライバシ解析を行う。
本稿では,メンバーシップ情報に関する3つの重要な直観と,それに応じて4つの攻撃手法を設計する。
提案した攻撃はいずれも大きな性能を達成でき、場合によっては精度が1に近い場合もあり、既存のメンバーシップ推論攻撃よりもはるかに深刻なリスクとなる。
論文 参考訳(メタデータ) (2022-10-03T14:31:39Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Privacy-Aware Adversarial Network in Human Mobility Prediction [11.387235721659378]
ユーザの再識別やその他の機密性の高い推論は、位置情報データがクラウド支援アプリケーションと共有される場合、主要なプライバシー上の脅威である。
LSTMに基づく逆表現学習により、元の位置情報データのプライバシー保護機能表現を実現する。
モビリティトレースのプライバシは、限界モビリティユーティリティーのコストで、まともな保護を達成できることを示します。
論文 参考訳(メタデータ) (2022-08-09T19:23:13Z) - Privacy-Aware Human Mobility Prediction via Adversarial Networks [10.131895986034314]
本研究では,LSTMをベースとした新たな逆方向学習機構を実装し,従来の位置情報データ(移動データ)のプライバシー保護機能表現を共有目的に実現した。
我々は,軌道再構成リスク,ユーザ再識別リスク,移動予測可能性の観点から,移動データセットのユーティリティプライバシトレードオフを定量化する。
論文 参考訳(メタデータ) (2022-01-19T10:41:10Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Robustness Threats of Differential Privacy [70.818129585404]
我々は、いくつかの設定で差分プライバシーをトレーニングしたネットワークが、非プライベートバージョンに比べてさらに脆弱であることを実験的に実証した。
本研究では,勾配クリッピングや雑音付加などのニューラルネットワークトレーニングの主成分が,モデルの堅牢性に与える影響について検討する。
論文 参考訳(メタデータ) (2020-12-14T18:59:24Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。