論文の概要: PrivacySIM: Evaluating LLM Simulation of User Privacy Behavior
- arxiv url: http://arxiv.org/abs/2605.12147v1
- Date: Tue, 12 May 2026 14:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.899201
- Title: PrivacySIM: Evaluating LLM Simulation of User Privacy Behavior
- Title(参考訳): PrivacySIM: LLMシミュレーションによるユーザのプライバシ行動の評価
- Authors: James Flemings, Murali Annavaram,
- Abstract要約: 大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするためにますます使われているが、$individual$プライバシー決定をシミュレートする能力はよく理解されていない。
本研究では,LLMシミュレーションによるユーザプライバシ動作のシミュレーションを,1000人のユーザに対して実施する評価スイートであるPrivacySIMを紹介する。
これら3つのファセットのサブセットに9つのフロンティアLSMを条件とし、各モデルのデータ共有シナリオに対するレスポンスがユーザの実際のレスポンスとどの程度の頻度で一致しているかを測定する。
- 参考スコア(独自算出の注目度): 14.647995736798698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used to simulate human behavior, but their ability to simulate $individual$ privacy decisions is not well understood. In this paper, we address the problem of evaluating whether a core set of user persona attributes can drive LLMs to simulate individual-level privacy behavior. We introduce PrivacySIM, an evaluation suite that benchmarks LLM simulation of user privacy behavior against the ground-truth responses of 1,000 users. These users are drawn from five published user studies on privacy spanning LLM healthcare consultations, conversational agents, and chatbots. Drawing on these user studies, we hypothesize three persona facets as plausible predictors of privacy decision-making: demographics, previous experiences, and stated privacy attitudes. We condition nine frontier LLMs on subsets of these three facets and measure how often each model's response to a data-sharing scenario matches the user's actual response. Our findings show that (1) privacy persona conditioning consistently improves simulation quality over no-persona conditioning, but even the strongest model (40.4\% accuracy) remains far from faithfully simulating individual privacy decisions. (2) A user's stated privacy attitudes alone may not be the best predictor because they often diverge from the user's actual privacy behavior. (3) Users with high AI/chatbot experience but low stated privacy attitudes are the most challenging to simulate. PrivacySIM is a first step toward understanding and improving the capabilities of LLMs to simulate user privacy decisions. We release PrivacySIM to enable further evaluation of LLM privacy simulation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするためにますます使われているが、$individual$プライバシー決定をシミュレートする能力はよく理解されていない。
本稿では,ユーザペルソナ属性のコアセットがLLMを駆動し,個々のプライバシ動作をシミュレートできるかどうかを評価する。
本研究では,LLMシミュレーションによるユーザプライバシ動作のシミュレーションを,1000人のユーザに対して実施する評価スイートであるPrivacySIMを紹介する。
これらのユーザは、LLM医療相談、会話エージェント、チャットボットにまたがるプライバシーに関する5つの公開ユーザスタディから抽出される。
これらのユーザスタディに基づいて、私たちは3つのペルソナの面を、人口統計学、過去の経験、表現されたプライバシーの態度といった、プライバシー決定の妥当な予測因子として仮説を立てています。
これら3つのファセットのサブセットに9つのフロンティアLSMを条件とし、各モデルのデータ共有シナリオに対するレスポンスがユーザの実際のレスポンスとどの程度の頻度で一致しているかを測定する。
以上の結果から,(1)プライバシ・ペルソナ・コンディショニングは,非パーソナ・コンディショニングよりもシミュレーション品質を継続的に向上させるが,最強モデル(40.4\%の精度)でさえ,個人のプライバシ決定を忠実にシミュレートするには程遠いことが示唆された。
2)ユーザの主張するプライバシの態度だけでは,ユーザの実際のプライバシ行動から逸脱することが多いため,最高の予測にはならない可能性がある。
(3)AI/チャットボット経験が高いが、プライバシーの態度が低いユーザーは最もシミュレーションが難しい。
プライバシSIMは、ユーザーのプライバシ決定をシミュレートするLLMの機能を理解し改善する第一歩である。
LLMプライバシシミュレーションのさらなる評価を可能にするために、プライバシSIMをリリースする。
関連論文リスト
- Profiling for Pennies: Unveiling the Privacy Iceberg of LLM Agents [52.02752011119451]
我々は人間の意識のレンズを通して現実世界におけるプライバシーの認識を調査する。
我々は、現実世界の人間のプライバシーリスクを3段階に分類するPrivacyIcebergを提案する。
論文 参考訳(メタデータ) (2026-05-07T13:21:44Z) - Text-Based Personas for Simulating User Privacy Decisions [23.902474542548944]
テキストベースの合成プライバシペルソナを生成するNarrivaを提案する。
個人レベルのプライバシ嗜好と人口レベルのプライバシ選好の両方をモデル化する際のナリバの合成ペルソナの特徴を分析する。
論文 参考訳(メタデータ) (2026-03-20T09:28:15Z) - VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models [25.266028200777317]
音声言語モデル(SLM)は、ユーザが適切に情報の流れを管理するために区別されることが期待される。
現在のSLMベンチマークでは、対話能力をテストするが、話者識別は見落としている。
我々は、SLMにおけるインタラクションプライバシを評価するために設計された最初のベンチマークであるVoxPrivacyを紹介する。
論文 参考訳(メタデータ) (2026-01-27T06:22:14Z) - PrivacyReasoner: Can LLM Emulate a Human-like Privacy Mind? [13.499949825312797]
本稿では、現実世界のニュースに応答して、個々のユーザがプライバシの懸念をどう形成するかをシミュレートするAIエージェント設計であるPRAを紹介する。
現実のHacker Newsに関する議論の実験では、プライバシに関する予測において、PRAがベースラインエージェントより優れていることが示されている。
論文 参考訳(メタデータ) (2026-01-14T04:47:06Z) - User Perceptions of Privacy and Helpfulness in LLM Responses to Privacy-Sensitive Scenarios [10.12906605142667]
本稿では,プライバシに敏感なシナリオに反応する大規模言語モデルにおいて,ユーザがプライバシ保護の質や有用性をどのように感じているかを示す。
以上の結果から,プライバシを保ちながらユーザを支援するLCMの能力を測定することの必要性が示唆された。
論文 参考訳(メタデータ) (2025-10-23T16:38:26Z) - LLM-as-a-Judge for Privacy Evaluation? Exploring the Alignment of Human and LLM Perceptions of Privacy in Textual Data [47.76073133338117]
プライバシ-自然言語処理(NLP)分野の進歩にもかかわらず、プライバシの正確な評価は依然として課題である。
テキストデータにおけるプライバシ評価モデルであるsox2013$にインスパイアされたグローバルアプローチを提案する。
以上の結果から,プライバシ評価者としての評価者の可能性を探究する道が開けた。
論文 参考訳(メタデータ) (2025-08-16T20:49:41Z) - Benchmarking LLM Privacy Recognition for Social Robot Decision Making [21.331666364341448]
本稿では、コンテキスト整合性(CI)フレームワークを用いて、プライバシ関連シナリオのセットを提案する。
ヒトとLSMの合意は概して低かった。
評価されたモデルの性能と、人間とロボットの相互作用におけるAIプライバシ認識の意義と可能性について論じる。
論文 参考訳(メタデータ) (2025-07-22T00:36:59Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。