論文の概要: PII-VisBench: Evaluating Personally Identifiable Information Safety in Vision Language Models Along a Continuum of Visibility
- arxiv url: http://arxiv.org/abs/2601.05739v1
- Date: Fri, 09 Jan 2026 11:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.958145
- Title: PII-VisBench: Evaluating Personally Identifiable Information Safety in Vision Language Models Along a Continuum of Visibility
- Title(参考訳): PII-VisBench:視覚言語モデルにおける個人識別可能な情報安全性の評価
- Authors: G M Shahariar, Zabir Al Nazi, Md Olid Hasan Bhuiyan, Zhouxing Shi,
- Abstract要約: PII-VisBenchは、オンラインプレゼンスの継続を通してVLMの安全性を評価するために設計された4000個のプローブを含む新しいベンチマークである。
このベンチマークは、200人の被験者を、オンラインで利用可能な情報の範囲と性質に基づいて、ハイ、ミディアム、ロー、ゼロの4つの可視性カテゴリに分類している。
モデル全体では、被験者の視認性が低下するにつれて、拒絶が増加し、PII開示が減少する(9.10%高から5.34%低)という一貫したパターンが観察される。
- 参考スコア(独自算出の注目度): 4.603440637344069
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Language Models (VLMs) are increasingly integrated into privacy-critical domains, yet existing evaluations of personally identifiable information (PII) leakage largely treat privacy as a static extraction task and ignore how a subject's online presence--the volume of their data available online--influences privacy alignment. We introduce PII-VisBench, a novel benchmark containing 4000 unique probes designed to evaluate VLM safety through the continuum of online presence. The benchmark stratifies 200 subjects into four visibility categories: high, medium, low, and zero--based on the extent and nature of their information available online. We evaluate 18 open-source VLMs (0.3B-32B) based on two key metrics: percentage of PII probing queries refused (Refusal Rate) and the fraction of non-refusal responses flagged for containing PII (Conditional PII Disclosure Rate). Across models, we observe a consistent pattern: refusals increase and PII disclosures decrease (9.10% high to 5.34% low) as subject visibility drops. We identify that models are more likely to disclose PII for high-visibility subjects, alongside substantial model-family heterogeneity and PII-type disparities. Finally, paraphrasing and jailbreak-style prompts expose attack and model-dependent failures, motivating visibility-aware safety evaluation and training interventions.
- Abstract(参考訳): ビジョン言語モデル(VLM)は、ますますプライバシクリティカルなドメインに統合されているが、個人識別可能な情報(PII)リークに対する既存の評価は、プライバシを静的抽出タスクとして扱い、対象者のオンライン存在を無視する。
PII-VisBenchは、オンラインプレゼンスの継続を通してVLMの安全性を評価するように設計された4000個のユニークなプローブを含む新しいベンチマークである。
このベンチマークは、200人の被験者を、オンラインで利用可能な情報の範囲と性質に基づいて、ハイ、ミディアム、ロー、ゼロの4つの可視性カテゴリに分類している。
PII 探索クエリのパーセンテージ (拒否率) と PII を含むための非拒否応答のパーセンテージ (コンディショナル PII 開示率) の2つの主要な指標に基づいて18個のオープンソース VLM (0.3B-32B) を評価した。
モデル全体では、被験者の視認性が低下するにつれて、拒絶が増加し、PII開示が減少する(9.10%高から5.34%低)という一貫したパターンが観察される。
モデルが高可視被写体に対してPIIを開示する傾向が強く,PII型不均一性やモデルファミリーの不均一性も顕著である。
最後に、パラフレーズとジェイルブレイクスタイルのプロンプトは、攻撃とモデル依存の失敗を露呈し、可視性を考慮した安全性評価とトレーニング介入を動機付ける。
関連論文リスト
- UnPII: Unlearning Personally Identifiable Information with Quantifiable Exposure Risk [1.7825339856352196]
UnPIIは、個々のPII属性または組み合わせたPII属性のリスクに基づいて、忘れを優先する最初のPII中心の未学習アプローチである。
現実的な評価を支援するために,現実的な暴露シナリオをシミュレートする合成PIIデータセットを体系的に構築する。
論文 参考訳(メタデータ) (2026-01-05T04:45:04Z) - MultiPriv: Benchmarking Individual-Level Privacy Reasoning in Vision-Language Models [14.942122955210436]
現代のビジョンランゲージモデル(VLM)は、洗練された推論を示し、プライバシーリスクをエスカレートする。
現在のプライバシーベンチマークは、この新たな脅威に対して構造的に不十分である。
個人レベルのプライバシ推論を体系的に評価するための最初のベンチマークである textbfMultiPriv を提案する。
論文 参考訳(メタデータ) (2025-11-21T04:33:11Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders [8.483679748399037]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示したが、個人識別情報(PII)を記憶・漏洩することによりプライバシーリスクを生じさせる。
差分プライバシーやニューロンレベルの介入のような既存の緩和戦略は、しばしばモデルユーティリティを劣化させたり、リークを効果的に防いだりしない。
性能を維持しながらPIIリークを識別・緩和するために解釈可能性技術を活用する,新たなプライバシ保護フレームワークであるPrivacyScalpelを紹介する。
論文 参考訳(メタデータ) (2025-03-14T09:31:01Z) - PII-Bench: Evaluating Query-Aware Privacy Protection Systems [10.52362814808073]
本稿では,プライバシ保護システムを評価するための総合的な評価フレームワークであるPII-Benchを提案する。
PII-Benchは55の細粒度PIIカテゴリにまたがる2,842の試験サンプルから構成されており、単目的記述から複雑な多人数インタラクションまで多様なシナリオが特徴である。
論文 参考訳(メタデータ) (2025-02-25T14:49:08Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts [11.883785681042593]
DePromptは、プロンプトのための脱感作保護および有効性評価フレームワークである。
我々は、コンテキスト属性を統合し、プライバシタイプを定義し、高精度なPIIエンティティ識別を実現する。
私たちのフレームワークはプロンプトに適応可能で、テキストのユーザビリティに依存したシナリオに拡張できます。
論文 参考訳(メタデータ) (2024-08-16T02:38:25Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。