論文の概要: The Eye of Sherlock Holmes: Uncovering User Private Attribute Profiling via Vision-Language Model Agentic Framework
- arxiv url: http://arxiv.org/abs/2505.19139v1
- Date: Sun, 25 May 2025 13:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.93143
- Title: The Eye of Sherlock Holmes: Uncovering User Private Attribute Profiling via Vision-Language Model Agentic Framework
- Title(参考訳): シャーロックホームズの目:視覚言語モデルエージェントフレームワークによる個人属性プロファイリングの発見
- Authors: Feiran Liu, Yuzhe Zhang, Xinyi Huang, Yinan Peng, Xinfeng Li, Lixu Wang, Yutong Shen, Ranjie Duan, Simeng Qin, Xiaojun Jia, Qingsong Wen, Wei Dong,
- Abstract要約: 新しいプライバシーリスクは、個人画像から機密性の高い属性を推測する能力に関連している。
現代のアプリがユーザーの写真アルバムに簡単にアクセスできることを考えると、この脅威は特に深刻です。
本研究では、個人画像における個人属性のプロファイリングを研究するための最大のデータセットであるPAPIを構築する。
また、プライバシ推論を強化するために、VLMとLLMを組み合わせたハイブリッドエージェントフレームワークであるHolmesEyeを提案する。
- 参考スコア(独自算出の注目度): 28.25933078258213
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Our research reveals a new privacy risk associated with the vision-language model (VLM) agentic framework: the ability to infer sensitive attributes (e.g., age and health information) and even abstract ones (e.g., personality and social traits) from a set of personal images, which we term "image private attribute profiling." This threat is particularly severe given that modern apps can easily access users' photo albums, and inference from image sets enables models to exploit inter-image relations for more sophisticated profiling. However, two main challenges hinder our understanding of how well VLMs can profile an individual from a few personal photos: (1) the lack of benchmark datasets with multi-image annotations for private attributes, and (2) the limited ability of current multimodal large language models (MLLMs) to infer abstract attributes from large image collections. In this work, we construct PAPI, the largest dataset for studying private attribute profiling in personal images, comprising 2,510 images from 251 individuals with 3,012 annotated privacy attributes. We also propose HolmesEye, a hybrid agentic framework that combines VLMs and LLMs to enhance privacy inference. HolmesEye uses VLMs to extract both intra-image and inter-image information and LLMs to guide the inference process as well as consolidate the results through forensic analysis, overcoming existing limitations in long-context visual reasoning. Experiments reveal that HolmesEye achieves a 10.8% improvement in average accuracy over state-of-the-art baselines and surpasses human-level performance by 15.0% in predicting abstract attributes. This work highlights the urgency of addressing privacy risks in image-based profiling and offers both a new dataset and an advanced framework to guide future research in this area.
- Abstract(参考訳): 本研究は、視覚言語モデル(VLM)のエージェント・フレームワークに関連する新たなプライバシーリスクを明らかにし、機密属性(例えば、年齢、健康情報)や抽象属性(例えば、人格、社会的特徴)を一連の個人画像から推測する能力を明らかにし、これを「個人属性のプロファイリング(image private attribute profiling)」と呼ぶ。
この脅威は、モダンなアプリがユーザーのフォトアルバムに簡単にアクセスできることから特に深刻であり、イメージセットからの推論により、より洗練されたプロファイリングのために、モデル間の関係を活用できる。
しかしながら、VLMがいくつかの個人写真からどのように個人をプロファイルできるかについての理解を妨げる2つの主な課題は、(1) プライベート属性に対するマルチイメージアノテーションによるベンチマークデータセットの欠如、(2) 大規模な画像コレクションから抽象属性を推測する現在のマルチモーダルな大規模言語モデル(MLLM)の限られた能力の欠如である。
本研究では,プライバシ属性が3,012である251人の個人から2,510枚の画像からなる,個人画像における個人属性のプロファイリングを研究するための最大のデータセットであるPAPIを構築する。
また、プライバシ推論を強化するために、VLMとLLMを組み合わせたハイブリッドエージェントフレームワークであるHolmesEyeを提案する。
HolmesEye は VLM を用いて画像内情報と画像間情報の両方を抽出し、LLM を用いて推論プロセスをガイドし、法医学的な分析を通じて結果を統合し、長いコンテキストの視覚的推論における既存の制限を克服する。
実験の結果、HolmesEyeは最先端のベースラインよりも平均精度が10.8%向上し、抽象属性の予測において人間レベルのパフォーマンスを15.0%上回っていることが明らかになった。
この研究は、画像ベースのプロファイリングにおけるプライバシーリスクに対処する緊急性を強調し、この分野における将来の研究を導くための新しいデータセットと高度なフレームワークを提供する。
関連論文リスト
- Multi-P$^2$A: A Multi-perspective Benchmark on Privacy Assessment for Large Vision-Language Models [65.2761254581209]
LVLM(Large Vision-Language Models)21個のオープンソースと2個のクローズドソースのプライバシ保護機能の評価を行った。
Multi-P$2$Aに基づいて、21のオープンソースと2つのクローズドソースLVLMのプライバシ保護機能を評価する。
以上の結果から,現在のLVLMは一般にプライバシー侵害のリスクが高いことが明らかとなった。
論文 参考訳(メタデータ) (2024-12-27T07:33:39Z) - Enhancing User-Centric Privacy Protection: An Interactive Framework through Diffusion Models and Machine Unlearning [54.30994558765057]
この研究は、データ共有とモデル公開の間、画像データのプライバシーを同時に保護する包括的なプライバシー保護フレームワークのパイオニアだ。
本稿では、生成機械学習モデルを用いて属性レベルで画像情報を修正するインタラクティブな画像プライバシー保護フレームワークを提案する。
本フレームワークでは、画像中の属性情報を保護する差分プライバシー拡散モデルと、修正された画像データセット上でトレーニングされたモデルの効率的な更新を行う特徴未学習アルゴリズムの2つのモジュールをインスタンス化する。
論文 参考訳(メタデータ) (2024-09-05T07:55:55Z) - Private Attribute Inference from Images with Vision-Language Models [2.9373912230684565]
視覚言語モデル(VLM)は、画像とテキストの両方を理解することができる。
我々は7つの最先端のVLMを評価し、最大77.6%の精度で様々な個人属性を推測できることを発見した。
モデルの一般的な能力で精度がスケールすることが観察され、将来のモデルはより強い推論の敵として誤用される可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-16T14:42:49Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - Content-based Graph Privacy Advisor [38.733077459065704]
本稿では,画像のプライバシを予測するための手がかりとして,シーン情報とオブジェクトの濃度を用いた画像プライバシー分類器を提案する。
我々のグラフプライバシ・アドバイザ(GPA)モデルは、最先端のグラフモデルを単純化し、その性能を改善する。
論文 参考訳(メタデータ) (2022-10-20T11:12:42Z) - OPOM: Customized Invisible Cloak towards Face Privacy Protection [58.07786010689529]
我々は、新しいタイプのカスタマイズクロークに基づく技術の観点から、顔のプライバシ保護について検討する。
本研究では,個人固有の(クラスワイドな)ユニバーサルマスクを生成するために,1人1マスク(OPOM)という新しい手法を提案する。
提案手法の有効性を,共通データセットと有名データセットの両方で評価した。
論文 参考訳(メタデータ) (2022-05-24T11:29:37Z) - InfoScrub: Towards Attribute Privacy by Targeted Obfuscation [77.49428268918703]
視覚データに流出した個人情報を個人が制限できる技術について検討する。
我々はこの問題を新しい画像難読化フレームワークで解決する。
提案手法では,元の入力画像に忠実な難読化画像を生成するとともに,非難読化画像に対して6.2$times$(または0.85bits)の不確実性を増大させる。
論文 参考訳(メタデータ) (2020-05-20T19:48:04Z) - PrivacyNet: Semi-Adversarial Networks for Multi-attribute Face Privacy [15.301150389512744]
画像手法を用いて, 顔画像に対するソフトバイオメトリック・プライバシを実現する手法を開発した。
画像摂動は、GANをベースとしたSAN(Semi-Adversarial Network)を用いて行われる。
PrivacyNetでは、入力された顔画像に難読化される属性を選択することができる。
論文 参考訳(メタデータ) (2020-01-02T18:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。