論文の概要: Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2510.02356v1
- Date: Sat, 27 Sep 2025 23:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.036001
- Title: Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark
- Title(参考訳): 大規模言語モデルの物理世界プライバシ意識の測定:評価ベンチマーク
- Authors: Xinjie Shen, Mufei Li, Pan Li,
- Abstract要約: EAPrivacyは、エンボディエージェントの物理世界のプライバシー意識を定量化するために設計された総合評価ベンチマークである。
最高のパフォーマンスモデルであるGemini 2.5 Proは、物理的環境の変更を含むシナリオにおいて、わずか59%の精度しか達成していない。
GPT-4oやClaude-3.5-haikuのような主要なモデルは、社会規範を15%以上無視していた。
- 参考スコア(独自算出の注目度): 10.645183619391135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Language Models (LLMs) in embodied agents creates an urgent need to measure their privacy awareness in the physical world. Existing evaluation methods, however, are confined to natural language based scenarios. To bridge this gap, we introduce EAPrivacy, a comprehensive evaluation benchmark designed to quantify the physical-world privacy awareness of LLM-powered agents. EAPrivacy utilizes procedurally generated scenarios across four tiers to test an agent's ability to handle sensitive objects, adapt to changing environments, balance task execution with privacy constraints, and resolve conflicts with social norms. Our measurements reveal a critical deficit in current models. The top-performing model, Gemini 2.5 Pro, achieved only 59\% accuracy in scenarios involving changing physical environments. Furthermore, when a task was accompanied by a privacy request, models prioritized completion over the constraint in up to 86\% of cases. In high-stakes situations pitting privacy against critical social norms, leading models like GPT-4o and Claude-3.5-haiku disregarded the social norm over 15\% of the time. These findings, demonstrated by our benchmark, underscore a fundamental misalignment in LLMs regarding physically grounded privacy and establish the need for more robust, physically-aware alignment.
- Abstract(参考訳): エンボディエージェントへのLLM(Large Language Models)の展開は、物理的な世界でのプライバシ意識を測定する緊急の必要性を生じさせる。
しかし、既存の評価手法は、自然言語ベースのシナリオに限定されている。
このギャップを埋めるため,LLMエージェントの物理世界におけるプライバシ意識の定量化を目的とした総合評価ベンチマークであるEAPrivacyを導入する。
EAPrivacyは、4層にわたる手続き的に生成されたシナリオを使用して、エージェントの機密性のあるオブジェクト処理能力のテスト、環境の変化への適応、タスクの実行とプライバシの制約のバランス、社会的規範との矛盾の解決を行う。
私たちの測定は、現在のモデルに重大な欠陥があることを明らかにします。
最高のパフォーマンスモデルであるGemini 2.5 Proは、物理的環境の変更を含むシナリオにおいて、59パーセントの精度しか達成していない。
さらに、タスクにプライバシ要求が伴う場合、モデルでは、最大86%のケースで、制約よりも完了を優先する。
GPT-4oやClaude-3.5-haikuのような主要なモデルでは、社会的規範を15.5%以上無視している。
これらの結果は、我々のベンチマークで実証され、LLMの物理的根拠のあるプライバシに関する基本的なミスアライメントと、より堅牢で物理的に認識されたアライメントの必要性を裏付けるものである。
関連論文リスト
- Adaptive Backtracking for Privacy Protection in Large Language Models [22.340767807000212]
本稿では,企業指向のプライバシに関する新たな目的について紹介する。
データ・サニタイズなどの既存の手法では、モデルの性能が著しく低下する。
隠れ状態モデルを活用するトレーニングフリーのメカニズムであるABackを提案する。
論文 参考訳(メタデータ) (2025-08-08T07:29:33Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Can Foundation Models Help Us Achieve Perfect Secrecy? [11.073539163281524]
機械学習の鍵となる約束は、ユーザーをパーソナルなタスクで支援する能力である。
金の標準プライバシー保護システムは、完全な機密性を満たすだろう。
しかし、プライバシーと品質は、個人業務のために既存のシステムでは緊張しているようだ。
論文 参考訳(メタデータ) (2022-05-27T02:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。