論文の概要: PII-Bench: Evaluating Query-Aware Privacy Protection Systems
- arxiv url: http://arxiv.org/abs/2502.18545v1
- Date: Tue, 25 Feb 2025 14:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 17:39:51.139579
- Title: PII-Bench: Evaluating Query-Aware Privacy Protection Systems
- Title(参考訳): PII-Bench:クエリ対応プライバシ保護システムの評価
- Authors: Hao Shen, Zhouhong Gu, Haokai Hong, Weili Han,
- Abstract要約: 本稿では,プライバシ保護システムを評価するための総合的な評価フレームワークであるPII-Benchを提案する。
PII-Benchは55の細粒度PIIカテゴリにまたがる2,842の試験サンプルから構成されており、単目的記述から複雑な多人数インタラクションまで多様なシナリオが特徴である。
- 参考スコア(独自算出の注目度): 10.52362814808073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of Large Language Models (LLMs) has raised significant privacy concerns regarding the exposure of personally identifiable information (PII) in user prompts. To address this challenge, we propose a query-unrelated PII masking strategy and introduce PII-Bench, the first comprehensive evaluation framework for assessing privacy protection systems. PII-Bench comprises 2,842 test samples across 55 fine-grained PII categories, featuring diverse scenarios from single-subject descriptions to complex multi-party interactions. Each sample is carefully crafted with a user query, context description, and standard answer indicating query-relevant PII. Our empirical evaluation reveals that while current models perform adequately in basic PII detection, they show significant limitations in determining PII query relevance. Even state-of-the-art LLMs struggle with this task, particularly in handling complex multi-subject scenarios, indicating substantial room for improvement in achieving intelligent PII masking.
- Abstract(参考訳): LLM(Large Language Models)の普及により、ユーザプロンプトにおける個人識別可能な情報(PII)の露出に関するプライバシー上の懸念が高まっている。
この課題に対処するため,プライバシ保護システムを評価するための総合的な評価フレームワークであるPII-Benchを導入し,クエリ非関連なPIIマスキング戦略を提案する。
PII-Benchは55の細粒度PIIカテゴリにまたがる2,842の試験サンプルから構成されており、単目的記述から複雑な多人数インタラクションまで多様なシナリオが特徴である。
各サンプルは、クエリ関連PIIを示すユーザクエリ、コンテキスト記述、標準回答で慎重に作成される。
我々の経験的評価は、現在のモデルが基本的PII検出において適切に機能する一方で、PIIクエリの関連性を決定する上で重要な制限が示されることを示している。
最先端のLLMでさえ、特に複雑な多目的シナリオを扱うのに、このタスクに苦労している。
関連論文リスト
- CAPID: Context-Aware PII Detection for Question-Answering Systems [2.538582648751871]
CAPIDは、ローカルに所有する小型言語モデル(SLM)を微調整し、QAのためにLLMに渡される前に機密情報をフィルタリングする実践的手法である。
既存のデータセットは、そのようなモデルを効果的に訓練するために必要なPIIの文脈依存の関連性を捉えていない。
実験の結果,細調整SLMを用いたPII検出は,既存のベースラインのスパン,関連性,型精度を大きく上回ることがわかった。
論文 参考訳(メタデータ) (2026-02-10T18:41:31Z) - BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - PII-VisBench: Evaluating Personally Identifiable Information Safety in Vision Language Models Along a Continuum of Visibility [4.603440637344069]
PII-VisBenchは、オンラインプレゼンスの継続を通してVLMの安全性を評価するために設計された4000個のプローブを含む新しいベンチマークである。
このベンチマークは、200人の被験者を、オンラインで利用可能な情報の範囲と性質に基づいて、ハイ、ミディアム、ロー、ゼロの4つの可視性カテゴリに分類している。
モデル全体では、被験者の視認性が低下するにつれて、拒絶が増加し、PII開示が減少する(9.10%高から5.34%低)という一貫したパターンが観察される。
論文 参考訳(メタデータ) (2026-01-09T11:40:56Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - Defeating Cerberus: Concept-Guided Privacy-Leakage Mitigation in Multimodal Language Models [6.278770177156937]
本稿では,PII関連コンテンツに関連するモデルの内部状態を同定し,修正する概念誘導緩和手法を提案する。
本手法は, PII感受性タスクを学習や微調整を必要とせず, 効果的かつ効率的に拒否できるようにVLMを誘導する。
論文 参考訳(メタデータ) (2025-09-29T21:27:10Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - PIIvot: A Lightweight NLP Anonymization Framework for Question-Anchored Tutoring Dialogues [5.264430938065097]
PIIvotは、PII検出問題を単純化するために、データコンテキストの知識を活用するPII匿名化フレームワークである。
また,QATD-2kは,高品質な教育対話データに対する需要に対応するため,オープンソースで最大の学習データセットである。
論文 参考訳(メタデータ) (2025-05-22T17:22:28Z) - P2NIA: Privacy-Preserving Non-Iterative Auditing [5.619344845505019]
AI法の出現により、リスクの高いAIシステムの倫理的コンプライアンスを評価する必要性が高まっている。
従来の監査手法は、プラットフォームのアプリケーションプログラミングインターフェース(API)に依存している。
P2NIAは,監査者とプラットフォーム双方の相互に有益なコラボレーションを提案する新しい監査手法である。
論文 参考訳(メタデータ) (2025-04-01T15:04:58Z) - ACEBench: Who Wins the Match Point in Tool Usage? [68.54159348899891]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - A Tale of Two Imperatives: Privacy and Explainability [0.0]
科学分野におけるディープラーニングの優位性は、高い意思決定を形作っている。
本稿では,RTP(Right-to-Privacy)とRTE(Right-to-Explanation)を組み合わせる複雑さについて検討する。
論文 参考訳(メタデータ) (2024-12-30T08:43:28Z) - A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation [0.0]
画像セグメンテーションの進歩は、ディープラーニングベースのコンピュータビジョンの幅広い範囲において重要な役割を担っている。
この文脈において不確かさの定量化が広く研究され、モデル無知(エピステミック不確実性)やデータあいまいさ(アラート不確実性)を表現し、不正な意思決定を防ぐことができる。
論文 参考訳(メタデータ) (2024-11-25T13:26:09Z) - PII-Scope: A Benchmark for Training Data PII Leakage Assessment in LLMs [8.98944128441731]
LLMを対象としたPII抽出攻撃の最先端手法を評価するための総合ベンチマークであるPII-Scopeを紹介する。
我々は、より現実的な攻撃シナリオに研究を拡張し、高度な敵戦略を用いたPII攻撃を探索する。
PII抽出速度は,高度な対数能力とクエリ予算の制限により,事前学習モデルをターゲットにした場合,最大5倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-09T09:16:25Z) - Comparing Feature-based and Context-aware Approaches to PII Generalization Level Prediction [0.6138671548064356]
テキストデータのPIIはプライバシにとって重要であるが、現在の一般化手法では、不均一なデータ配信やコンテキスト認識の制限といった課題に直面している。
本稿では、構造化された入力の性能向上に機械学習を用いた特徴ベース手法と、原文と一般化された候補との間のより広い文脈と意味的関係を考慮したコンテキスト認識フレームワークを提案する。
WikiReplaceデータセットの実験では、両方の方法の有効性が示され、コンテキスト認識アプローチは、さまざまなスケールで機能ベースのものよりも優れています。
論文 参考訳(メタデータ) (2024-07-03T06:32:03Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Improving Query-Focused Meeting Summarization with Query-Relevant
Knowledge [71.14873115781366]
本稿では,その課題に対処するため,知識認識要約器(KAS)と呼ばれる知識強化2段階のフレームワークを提案する。
最初の段階では、クエリ関連セグメント抽出を改善するために知識認識スコアを導入します。
第2段階では,クエリ関連知識を要約生成に取り入れる。
論文 参考訳(メタデータ) (2023-09-05T10:26:02Z) - ProPILE: Probing Privacy Leakage in Large Language Models [38.92840523665835]
大規模言語モデル(LLM)は、しばしば大量のWebコンパイルデータに基づいて訓練される。
本稿では,PII リークの可能性を意識して,データ被写体や PII の所有者を支援する新しい探索ツールである ProPILE について述べる。
論文 参考訳(メタデータ) (2023-07-04T18:53:47Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - Wild Face Anti-Spoofing Challenge 2023: Benchmark and Results [73.98594459933008]
顔認証システム(FAS)は、顔認識システムの完全性を保護するための重要なメカニズムである。
この制限は、公開可能なFASデータセットの不足と多様性の欠如に起因する可能性がある。
制約のない環境で収集された大規模で多様なFASデータセットであるWild Face Anti-Spoofingデータセットを紹介した。
論文 参考訳(メタデータ) (2023-04-12T10:29:42Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。