論文の概要: POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents
- arxiv url: http://arxiv.org/abs/2605.19127v1
- Date: Mon, 18 May 2026 21:27:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.996781
- Title: POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents
- Title(参考訳): POLAR-Bench: LLMエージェントにおけるプライバシ-ユーティリティトレードオフの診断ベンチマーク
- Authors: Qiaoyuan Zheng, Yiqu Yang, Qi Gao, Imanol Schlag,
- Abstract要約: LLMエージェントは、ますますプライベートなユーザーデータにアクセスし、サードパーティシステムと対話する際にユーザーの代理として機能するようになっている。
POLAR-Bench(Policy-aware adversarial Benchmark)を導入し、プライバシポリシを持つ信頼されたモデルと、タスク関連属性と保護属性の両方を逆探索するサードパーティモデルとを対応付ける。
- 参考スコア(独自算出の注目度): 8.326035024685922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents increasingly have access to private user data and act on the user's behalf when interacting with third-party systems. The user defines what may and must not be shared, and the agent must robustly follow that intent even when third-party systems behave adversarially. We introduce POLAR-Bench (Policy-aware adversarial Benchmark), in which a trusted model with a privacy policy and a task converses with a third-party model that adversarially probes for both task-relevant and protected attributes. Across 10 domains and 7,852 samples, we score privacy and utility by deterministic set-membership and vary privacy policy dimension and attack strategy along two orthogonal axes, producing a 5 times 5 diagnostic surface per model. Our results reveal a sharp split: current frontier models withhold over 99% of protected attributes, while smaller open-weight models in the 1--30B range, the class users most commonly run as their own trusted agent on-device or via private inference, score notably worse, with the weakest leaking over half. POLAR-Bench thus localizes where each model's intent-following breaks down, providing a foothold for privacy alignment where it matters most.
- Abstract(参考訳): LLMエージェントは、ますますプライベートなユーザーデータにアクセスし、サードパーティシステムと対話する際にユーザーの代理として機能するようになっている。
ユーザは、何が可能で、何が共有されなければならないのかを定義し、エージェントは、サードパーティのシステムが敵対的に振る舞う場合でも、その意図をしっかりと従わなければならない。
POLAR-Bench(Policy-aware adversarial Benchmark)を導入し、プライバシポリシとタスクを持つ信頼できるモデルと、タスク関連属性と保護属性の両方を逆探索するサードパーティモデルとを対応付ける。
10のドメインと7,852のサンプルで、決定論的設定メンバーシップによってプライバシとユーティリティをスコアし、2つの直交軸に沿ってプライバシポリシとアタック戦略を変化させ、モデル毎の5倍の診断面を生成する。
現在のフロンティアモデルは保護された属性の99%以上を占めており、一方1-30Bの範囲の小さなオープンウェイトモデルでは、クラスユーザーはデバイス上で、またはプライベート推論を介して、信頼されたエージェントとして実行され、最も低いリークは半分以上である。
したがって、POLAR-Benchは、各モデルの意図追跡が壊れる場所をローカライズする。
関連論文リスト
- Contextualized Privacy Defense for LLM Agents [84.30907378390512]
LLMエージェントはますますユーザーの個人情報に作用するが、既存のプライバシー保護は設計と適応性の両方において制限されている。
我々は,新たなプライバシ防衛パラダイムであるCDI(Contextualized Defense Instructing)を提案する。
我々のCDIは、ベースラインよりもプライバシー保護(94.2%)と有用性(80.6%)のバランスが良好であることを示します。
論文 参考訳(メタデータ) (2026-03-03T13:35:33Z) - Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs [61.15237978606501]
大規模言語モデルは、ユーザ生成テキストからプライベートなユーザー属性を推測することができる。
既存の匿名化ベースの防御は粗く、プライバシーを優先する要素を匿名化する際に単語レベルの精度が欠如している。
細粒度匿名化(TRACE)と推論防止最適化(RPS)を組み合わせた統合防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T03:37:50Z) - Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark [10.645183619391135]
EAPrivacyは、エンボディエージェントの物理世界のプライバシー意識を定量化するために設計された総合評価ベンチマークである。
EAPrivacyは、4層にわたる手続き的に生成されたシナリオを使用して、エージェントの機密性のあるオブジェクト処理能力のテスト、環境の変化への適応、タスクの実行とプライバシの制約のバランス、社会的規範との矛盾の解決を行う。
論文 参考訳(メタデータ) (2025-09-27T23:39:56Z) - Privacy in Action: Towards Realistic Privacy Mitigation and Evaluation for LLM-Powered Agents [40.39717403627143]
モデルに依存しないコンテキスト整合性に基づく緩和アプローチであるPrivacyCheckerを提案する。
静的ベンチマークを動的MPPとA2A環境に変換するPrivacyLens-Liveも導入しています。
私たちのデータとコードはhttps://aka.ms/privacy_in_action.orgで公開されます。
論文 参考訳(メタデータ) (2025-09-22T08:19:06Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - Bayes-Nash Generative Privacy Against Membership Inference Attacks [24.330984323956173]
本稿では, プライバシ保護をゲーム理論でモデル化する枠組みを, ディフェンダーとアタッカーのベイズゲームとして提案する。
戦略的複雑さに対処するため、私たちは、プライベートデータセットを公開表現にマッピングするニューラルネットワークジェネレータとして、ディフェンダーの混合戦略を表現します。
当社のアプローチは,より強力な攻撃を発生させ,より優れたプライバシ・ユーティリティ・トレードオフを実現することによって,最先端の手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-10-09T20:29:04Z) - Segmented Private Data Aggregation in the Multi-message Shuffle Model [9.298982907061099]
我々は、差分プライバシーのマルチメッセージシャッフルモデルにおいて、セグメント化されたプライベートデータアグリゲーションの研究を開拓した。
当社のフレームワークでは,ユーザに対するフレキシブルなプライバシ保護と,アグリゲーションサーバのための拡張ユーティリティを導入している。
提案手法は,既存手法と比較して推定誤差を約50%削減する。
論文 参考訳(メタデータ) (2024-07-29T01:46:44Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。