論文の概要: Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
- arxiv url: http://arxiv.org/abs/2508.19493v2
- Date: Wed, 03 Sep 2025 07:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 13:11:21.925855
- Title: Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
- Title(参考訳): MLLM搭載スマートフォンエージェントのプライバシー意識のベンチマーク
- Authors: Zhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu,
- Abstract要約: 私たちは7,138のシナリオを含む最初の大規模ベンチマークを私たちの知る限りで提示します。
ベンチマークされたエージェントのほとんどすべてが満足できないプライバシー意識(RA)を示しており、明示的なヒントがあってもパフォーマンスは60%以下である。
全体として、クローズドソースエージェントは、オープンソースエージェントよりも優れたプライバシ能力を示し、Gemini 2.0-flashは67%のRAを達成した。
- 参考スコア(独自算出の注目度): 12.624623067203132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smartphones bring significant convenience to users but also enable devices to extensively record various types of personal information. Existing smartphone agents powered by Multimodal Large Language Models (MLLMs) have achieved remarkable performance in automating different tasks. However, as the cost, these agents are granted substantial access to sensitive users' personal information during this operation. To gain a thorough understanding of the privacy awareness of these agents, we present the first large-scale benchmark encompassing 7,138 scenarios to the best of our knowledge. In addition, for privacy context in scenarios, we annotate its type (e.g., Account Credentials), sensitivity level, and location. We then carefully benchmark seven available mainstream smartphone agents. Our results demonstrate that almost all benchmarked agents show unsatisfying privacy awareness (RA), with performance remaining below 60% even with explicit hints. Overall, closed-source agents show better privacy ability than open-source ones, and Gemini 2.0-flash achieves the best, achieving an RA of 67%. We also find that the agents' privacy detection capability is highly related to scenario sensitivity level, i.e., the scenario with a higher sensitivity level is typically more identifiable. We hope the findings enlighten the research community to rethink the unbalanced utility-privacy tradeoff about smartphone agents. Our code and benchmark are available at https://zhixin-l.github.io/SAPA-Bench.
- Abstract(参考訳): スマートフォンはユーザーにとって非常に便利なだけでなく、様々な種類の個人情報を広範囲に記録できる。
MLLM(Multimodal Large Language Models)を利用した既存のスマートフォンエージェントは,タスクの自動化において優れた性能を発揮している。
しかし、コストとして、これらのエージェントは、この操作中に機密情報の実質的なアクセスを許される。
これらのエージェントのプライバシー意識を深く理解するために、我々は7,138のシナリオを網羅した最初の大規模ベンチマークを示す。
さらに、シナリオのプライバシコンテキストでは、タイプ(例えば、Account Credentials)、感度レベル、ロケーションをアノテートします。
次に、利用可能な7つの主要なスマートフォンエージェントを慎重にベンチマークします。
以上の結果から,ほぼすべてのベンチマークエージェントが満足できないプライバシ意識(RA)を示し,その性能は明示的なヒントを伴っても60%以下であった。
全体として、クローズドソースエージェントは、オープンソースエージェントよりも優れたプライバシ能力を示し、Gemini 2.0-flashは67%のRAを達成した。
また、エージェントのプライバシ検出能力はシナリオ感度レベルと高い関係があること、すなわち、高い感度レベルを持つシナリオが典型的にはより識別可能であることも見出した。
この調査結果は、スマートフォンエージェントに関する不均衡なユーティリティとプライバシのトレードオフを再考する研究コミュニティを啓発することを期待している。
私たちのコードとベンチマークはhttps://zhixin-l.github.io/SAPA-Bench.orgで公開されています。
関連論文リスト
- VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models [25.266028200777317]
音声言語モデル(SLM)は、ユーザが適切に情報の流れを管理するために区別されることが期待される。
現在のSLMベンチマークでは、対話能力をテストするが、話者識別は見落としている。
我々は、SLMにおけるインタラクションプライバシを評価するために設計された最初のベンチマークであるVoxPrivacyを紹介する。
論文 参考訳(メタデータ) (2026-01-27T06:22:14Z) - LLM-Powered Analysis of IoT User Reviews: Tracking and Ranking Security and Privacy Concerns [5.1289009765732265]
本研究は,ユーザがS&Pの懸念を表明するレビューを識別し,分類する,最先端の方法論を提案する。
われわれのパイプラインを、フィットネストラッカー、スマートスピーカー、カメラに関する9万9千のAmazonレビューに適用した。
従来よりもS&P関連レビューが有意に多かった。
論文 参考訳(メタデータ) (2026-01-01T15:24:21Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、AIウェブナビゲーションエージェントがデータ最小化のプライバシー原則に従うかどうかを測定する新しいベンチマークAgentDAMを紹介する。
我々のベンチマークは、現実的なWebインタラクションシナリオをエンドツーエンドでシミュレートし、既存のWebナビゲーションエージェントに適応する。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World [50.937342998351426]
COUT(Chain-of-User-Thought)は、新しい推論パラダイムである。
我々は、サイバー環境を認識し、パーソナライズされた要求を推論するエージェントフレームワークであるSmartAgentを紹介する。
我々の研究は、まずCOUTプロセスを定式化し、パーソナライズされたエージェント学習を具体化するための予備的な試みとして役立ちます。
論文 参考訳(メタデータ) (2024-12-10T12:40:35Z) - Privacy Leakage Overshadowed by Views of AI: A Study on Human Oversight of Privacy in Language Model Agent [1.5020330976600738]
個人のタスクを代行する言語モデル(LM)エージェントは生産性を向上するが、意図しないプライバシー漏洩のリスクも受けやすい。
本研究は、LMエージェントのプライバシ含意を監督する人々の能力に関する最初の研究である。
論文 参考訳(メタデータ) (2024-11-02T19:15:42Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。