Do Phone-Use Agents Respect Your Privacy?
Abstractの概要
本論文は、スマートフォン操作エージェントが良性のモバイルタスクを遂行する際に、ユーザーデータを適切に扱っているかどうかを調査している。著者らは、iMyプライバシー契約、計装されたモックAndroidアプリ、および個々のフォーム入力レベルでのエージェントのデータ処理に対するルールベースの監査を通じて、プライバシー尊重行動を運用可能にする検証可能な評価フレームワーク「MyPhoneBench」を提案している。このフレームワークでは、プライバシー準拠を許可されたアクセス、最小限の情報開示、およびユーザー制御のメモリとして定義し、過剰権限付与、トラップ耐性、フォーム最小化の3つのプライバシープローブを用いてエージェントをテストする。5つのフロンティアモデル、10個のアプリ、300タスクにわたる実験を通じて、タスクの成功がプライバシー準拠行動を確実に示すものではないこと、また単一のモデルがすべての評価軸で優位に立つわけではないことを実証している。
新規性
主要な貢献は、スマートフォン操作エージェントにおけるプライバシー行動を監査可能かつ再現可能な評価問題として定式化するベンチマークである。明示的な実行時プライバシー契約(iMy)と、フォームレベルの操作を記録する制御されたアプリ、および3つの構造化プライバシープローブ(過剰権限付与、トラップ耐性、フォーム最小化)を組み合わせることで、現実的なモバイルワークフロー中のプライバシー違反を決定論的に検査する能力を実現しており、これは既存のスマートフォン操作エージェントベンチマークにはない機能である。
成果
5つのフロンティアモデルを用いた実験では、タスク成功率、プライバシー適格成功率、および後続セッションでの保存済み設定の使用がそれぞれ異なる能力であり、各軸でモデルのランキングが異なることが示された(例:Claude Opus 4.6がタスク成功率82.8%でトップだが、Kimi K2.5が平均プライバシー77.3%でトップ、Qwen 3.5 Plusがプライバシー適格成功率47.6%でトップ)。全モデルを通じて最も持続的なプライバシー違反はフォーム最小化であり、エージェントはタスクに不要な任意の個人情報フィールドを一貫して入力し、mDMVのような個人情報が多いアプリではスコアが41%まで低下した。
論文の注目点
- MyPhoneBenchは、明示的なプライバシー契約(iMy)、計装されたモックアプリ、および過剰権限付与・トラップ耐性・フォーム最小化の3つのプライバシープローブにわたる決定論的監査を用いて、モバイルエージェントを評価する。
- 5つのフロンティアモデルによる300タスクの実験において、3つの評価軸(タスク成功率、プライバシー適格成功率、後続セッションでの設定使用)すべてで優位に立つ単一のモデルは存在せず、成功率とプライバシーを同時に評価すると、成功率のみの評価と比較してモデルのランキングが変動する。
- 最も持続的なプライバシー違反は、任意の個人情報フィールドの不要な入力(フォーム最小化)であり、これはアクセス制御の混乱ではなく、タスク完了志向のバイアスと整合する。
参考リンク
- arXiv: https://arxiv.org/abs/2604.00986v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2604.00986v1
- Hugging Face Papers: https://huggingface.co/papers/2604.00986
- GitHub: https://github.com/tangzhy/MyPhoneBench