論文の概要: DP^2-VL: Private Photo Dataset Protection by Data Poisoning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.23925v1
- Date: Wed, 25 Mar 2026 04:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.128143
- Title: DP^2-VL: Private Photo Dataset Protection by Data Poisoning for Vision-Language Models
- Title(参考訳): DP^2-VL:ビジョンランゲージモデルのためのデータポジショニングによるプライベートフォトデータセット保護
- Authors: Hongyi Miao, Jun Jia, Xincheng Wang, Qianli Ma, Wei Sun, Wangqiu Zhou, Dandan Zhu, Yewen Cao, Zhi Liu, Guangtao Zhai,
- Abstract要約: アイデンティティ・アフィリエイト学習というプライバシ・脅威モデルを提案する。
攻撃者は、ターゲット個人の数枚のプライベート写真を使用して、VLMを微調整する。
このモデルにより、写真入力時に対象ユーザの個人情報を不正に露呈することができる。
このプライバシーリスクを軽減するため、プライベート写真のための最初のデータセット保護フレームワークDP2-VLを提案する。
- 参考スコア(独自算出の注目度): 47.98028812152569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in visual-language alignment have endowed vision-language models (VLMs) with fine-grained image understanding capabilities. However, this progress also introduces new privacy risks. This paper first proposes a novel privacy threat model named identity-affiliation learning: an attacker fine-tunes a VLM using only a few private photos of a target individual, thereby embedding associations between the target facial identity and their private property and social relationships into the model's internal representations. Once deployed via public APIs, this model enables unauthorized exposure of the target user's private information upon input of their photos. To benchmark VLMs' susceptibility to such identity-affiliation leakage, we introduce the first identity-affiliation dataset comprising seven typical scenarios appearing in private photos. Each scenario is instantiated with multiple identity-centered photo-description pairs. Experimental results demonstrate that mainstream VLMs like LLaVA, Qwen-VL, and MiniGPT-v2, can recognize facial identities and infer identity-affiliation relationships by fine-tuning on small-scale private photographic dataset, and even on synthetically generated datasets. To mitigate this privacy risk, we propose DP2-VL, the first Dataset Protection framework for private photos that leverages Data Poisoning. Though optimizing imperceptible perturbations by pushing the original representations toward an antithetical region, DP2-VL induces a dataset-level shift in the embedding space of VLMs'encoders. This shift separates protected images from clean inference images, causing fine-tuning on the protected set to overfit. Extensive experiments demonstrate that DP2-VL achieves strong generalization across models, robustness to diverse post-processing operations, and consistent effectiveness across varying protection ratios.
- Abstract(参考訳): 視覚言語アライメントの最近の進歩は、微細な画像理解機能を備えた視覚言語モデル(VLM)が提案されている。
しかし、この進歩は新たなプライバシーリスクももたらします。
本稿では、まず、ターゲット人物のプライベートな写真のみを用いてVLMを微調整し、ターゲットの顔のアイデンティティとその個人的財産と社会的関係をモデルの内部表現に埋め込むという、新たなプライバシ・アフィリエイト・ラーニング(ID-アフィリエイト・ラーニング)を提案する。
パブリックAPI経由でデプロイされると、このモデルは、写真を入力すると、ターゲットユーザのプライベート情報の不正な露出を可能にする。
個人写真に現れる7つの典型的なシナリオからなる最初のアイデンティティ・アフィリエイトデータセットについて,VLMのアイデンティティ・アフィリエイトリークに対する感受性のベンチマークを行う。
各シナリオは、複数のアイデンティティ中心の写真記述ペアでインスタンス化される。
実験の結果,LLaVA,Qwen-VL,MiniGPT-v2といった主流のVLMは,小規模なプライベート写真データセットや合成データセット上での微調整により,顔の同一性を認識し,識別・親和関係を推定できることがわかった。
このプライバシーリスクを軽減するために,我々はDP2-VLを提案する。
VLMのエンコーダの埋め込み空間において、DP2-VLは、元の表現をアンチテティカル領域にプッシュすることで、知覚不能な摂動を最適化するが、データセットレベルのシフトを誘導する。
このシフトは、保護されたイメージをクリーンな推測画像から分離し、保護されたセットの微調整を過度に行う。
拡張実験により、DP2-VLはモデル間での強い一般化、多種多様な後処理操作に対する堅牢性、および様々な保護比における一貫した有効性を実現することが示された。
関連論文リスト
- T2UE: Generating Unlearnable Examples from Text Descriptions [60.111026156038264]
Unlearnable Examples (UEs) は、無許可のモデルトレーニングに対する有望な対策として登場した。
textbfText-to-Unlearnable Example (T2UE)は,テキスト記述のみを用いてUEを生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-05T05:10:14Z) - VIP: Visual Information Protection through Adversarial Attacks on Vision-Language Models [15.158545794377169]
我々は,視覚言語モデルにおけるプライバシの保存を敵攻撃問題とみなす。
画像中の関心領域内の情報を選択的に隠蔽する新たな攻撃戦略を提案する。
3つの最先端VLMに対する実験結果から、目標ROIの検出において最大98%の低下が見られた。
論文 参考訳(メタデータ) (2025-07-11T19:34:01Z) - The Eye of Sherlock Holmes: Uncovering User Private Attribute Profiling via Vision-Language Model Agentic Framework [28.25933078258213]
新しいプライバシーリスクは、個人画像から機密性の高い属性を推測する能力に関連している。
現代のアプリがユーザーの写真アルバムに簡単にアクセスできることを考えると、この脅威は特に深刻です。
本研究では、個人画像における個人属性のプロファイリングを研究するための最大のデータセットであるPAPIを構築する。
また、プライバシ推論を強化するために、VLMとLLMを組み合わせたハイブリッドエージェントフレームワークであるHolmesEyeを提案する。
論文 参考訳(メタデータ) (2025-05-25T13:22:10Z) - Private Attribute Inference from Images with Vision-Language Models [2.9373912230684565]
視覚言語モデル(VLM)は、画像とテキストの両方を理解することができる。
我々は7つの最先端のVLMを評価し、最大77.6%の精度で様々な個人属性を推測できることを発見した。
モデルの一般的な能力で精度がスケールすることが観察され、将来のモデルはより強い推論の敵として誤用される可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-16T14:42:49Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - ConfounderGAN: Protecting Image Data Privacy with Causal Confounder [85.6757153033139]
本稿では,GAN(Generative Adversarial Network)のConfounderGANを提案する。
実験は、3つの自然なオブジェクトデータセットと3つの医療データセットからなる6つの画像分類データセットで実施される。
論文 参考訳(メタデータ) (2022-12-04T08:49:14Z) - InfoScrub: Towards Attribute Privacy by Targeted Obfuscation [77.49428268918703]
視覚データに流出した個人情報を個人が制限できる技術について検討する。
我々はこの問題を新しい画像難読化フレームワークで解決する。
提案手法では,元の入力画像に忠実な難読化画像を生成するとともに,非難読化画像に対して6.2$times$(または0.85bits)の不確実性を増大させる。
論文 参考訳(メタデータ) (2020-05-20T19:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。