論文の概要: MultiPriv: Benchmarking Individual-Level Privacy Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.16940v1
- Date: Fri, 21 Nov 2025 04:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.883604
- Title: MultiPriv: Benchmarking Individual-Level Privacy Reasoning in Vision-Language Models
- Title(参考訳): MultiPriv:ビジョンランゲージモデルにおける個人レベルのプライバシ推論のベンチマーク
- Authors: Xiongtao Sun, Hui Li, Jiaming Zhang, Yujie Yang, Kaili Liu, Ruxin Feng, Wen Jun Tan, Wei Yang Bryan Lim,
- Abstract要約: 現代のビジョンランゲージモデル(VLM)は、洗練された推論を示し、プライバシーリスクをエスカレートする。
現在のプライバシーベンチマークは、この新たな脅威に対して構造的に不十分である。
個人レベルのプライバシ推論を体系的に評価するための最初のベンチマークである textbfMultiPriv を提案する。
- 参考スコア(独自算出の注目度): 14.942122955210436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Vision-Language Models (VLMs) demonstrate sophisticated reasoning, escalating privacy risks beyond simple attribute perception to individual-level linkage. Current privacy benchmarks are structurally insufficient for this new threat, as they primarily evaluate privacy perception while failing to address the more critical risk of privacy reasoning: a VLM's ability to infer and link distributed information to construct individual profiles. To address this critical gap, we propose \textbf{MultiPriv}, the first benchmark designed to systematically evaluate individual-level privacy reasoning in VLMs. We introduce the \textbf{Privacy Perception and Reasoning (PPR)} framework and construct a novel, bilingual multimodal dataset to support it. The dataset uniquely features a core component of synthetic individual profiles where identifiers (e.g., faces, names) are meticulously linked to sensitive attributes. This design enables nine challenging tasks evaluating the full PPR spectrum, from attribute detection to cross-image re-identification and chained inference. We conduct a large-scale evaluation of over 50 foundational and commercial VLMs. Our analysis reveals: (1) Many VLMs possess significant, unmeasured reasoning-based privacy risks. (2) Perception-level metrics are poor predictors of these reasoning risks, revealing a critical evaluation gap. (3) Existing safety alignments are inconsistent and ineffective against such reasoning-based attacks. MultiPriv exposes systemic vulnerabilities and provides the necessary framework for developing robust, privacy-preserving VLMs.
- Abstract(参考訳): 現代のビジョンランゲージモデル(VLM)は、個々のレベルのリンクに対する単純な属性認識を越えて、プライバシーリスクをエスカレートする洗練された推論を実証している。
現在のプライバシーベンチマークは、この新たな脅威に対して構造的に不十分であり、プライバシの推論のより重大なリスクに対処できない一方で、プライバシの知覚を評価している。
この重要なギャップに対処するために,VLMにおける個人レベルのプライバシ推論を体系的に評価する最初のベンチマークである‘textbf{MultiPriv} を提案する。
本稿では,PPR(textbf{Privacy Perception and Reasoning)フレームワークを紹介し,それをサポートするために,新しいバイリンガルなマルチモーダルデータセットを構築する。
このデータセットは、識別(顔、名前など)が繊細にセンシティブな属性に関連付けられている合成個々のプロファイルのコアコンポーネントを特徴としている。
この設計により、属性検出からクロスイメージ再識別、連鎖推論に至るまで、完全なPPRスペクトルを評価する9つの課題が実現される。
我々は50以上の基礎的かつ商業的なVLMを大規模に評価する。
分析の結果,(1)多くのVLMには有意かつ不測な推論に基づくプライバシリスクがあることがわかった。
2) 認知レベルの指標はこれらの推論リスクの予測に乏しいため, 重要な評価ギャップが明らかとなった。
(3)既存の安全アライメントは、そのような推論に基づく攻撃に対して一貫性がなく、効果がない。
MultiPrivはシステム上の脆弱性を公開し、堅牢でプライバシ保護のVLMを開発するために必要なフレームワークを提供する。
関連論文リスト
- Auditing M-LLMs for Privacy Risks: A Synthetic Benchmark and Evaluation Framework [7.493288948235459]
PRISMは、クロスモーダルなプライバシーリスクを評価するために設計された大規模な総合ベンチマークである。
PRISMは、最初のマルチモーダル、多次元、微細な合成データセットである。
PRISM上での6つのM-LLMの推論能力を評価する。
論文 参考訳(メタデータ) (2025-11-05T07:23:21Z) - VoxGuard: Evaluating User and Attribute Privacy in Speech via Membership Inference Attacks [51.68795949691009]
差分プライバシとメンバシップ推論に基づくフレームワークであるVoxGuardを紹介した。
属性については, 匿名化後も, 性別やアクセントをほぼ完全精度で再現できることが示唆された。
以上の結果から,EERはリークを著しく過小評価し,低FPR評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-22T20:57:48Z) - SynBench: A Benchmark for Differentially Private Text Generation [35.908455649647784]
医療や金融といった高度な分野におけるデータ駆動型意思決定のサポートは、データ共有にとって大きな障壁に直面している。
大規模言語モデルのような最近の生成AIモデルは、オープンドメインタスクにおいて印象的なパフォーマンスを示している。
しかし、彼らのセンシティブな環境への導入は、予測不可能な振る舞いと、プライバシー保護の不十分なデータセットによって制限されている。
論文 参考訳(メタデータ) (2025-09-18T03:57:50Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - SoK: Semantic Privacy in Large Language Models [24.99241770349404]
本稿では,大規模言語モデル(LLM)の入力処理,事前学習,微調整,アライメント段階におけるセマンティックプライバシリスクを分析するライフサイクル中心のフレームワークを提案する。
我々は、鍵攻撃ベクトルを分類し、差分プライバシー、埋め込み暗号化、エッジコンピューティング、未学習などの現在の防御がこれらの脅威にどのように対処しているかを評価する。
セマンティックリークの定量化、マルチモーダル入力の保護、生成品質との非識別性のバランス、プライバシー保護の透明性確保など、オープンな課題の概要をまとめて結論付けます。
論文 参考訳(メタデータ) (2025-06-30T08:08:15Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。