MosaicLeaks:Privacy Risks in Querying-in-the-Open for Deep Research Agents
Abstractの概要
本論文は、企業の非公開ドキュメントと外部のWeb検索を組み合わせる深層リサーチエージェントにおけるプライバシー漏洩を研究している。エージェントにローカルと公開情報源を交互に使用させ、外部クエリが非公開コンテキストに依存するように設計された1,001のマルチホップタスクのベンチマーク「MosaicLeaks」を導入する。著者らは、エージェントのWebクエリのみにアクセスできる敵対的モデルを用いて、リサーチの意図の推論、非公開の質問への回答、または企業のドキュメントに関する検証可能な主張の生成が可能かをテストすることで漏洩を評価する。複数のモデル全体を通じて、情報の漏洩が一般的であること、単純なプライバシープロンプトは部分的な効果しかないこと、タスクのパフォーマンスのみを最適化すると漏洩が増加する可能性があることを発見している。
新規性
本研究の新規性は、一見無害な複数の外部クエリが全体として情報漏洩につながる「モザイク効果」を通して、深層リサーチエージェントのプライバシーリスクを定義した点にある。また、非公開情報と公開情報のマルチホップ依存関係を明示的に交差させるベンチマークと、タスクの成功と漏洩回避の両方に密な報酬を与えるプライバシーを考慮した強化学習(RL)手法の両方を提供している。
成果
実証結果として、本論文は様々な系統やサイズのモデルが、評価された3つのレベルすべてで機密情報を漏洩させることを示している。Qwen3-4B-Instructの場合、タスクパフォーマンスを重視した強化学習により厳密な推論チェーンの成功率は48.7%から59.3%に向上したが、回答/完全情報レベルの漏洩も34.0%から51.7%に増加した。彼らが提案する「プライバシーに配慮した深層リサーチ(PA-DR)」トレーニングでは、精度を58.7%に向上させつつ回答/完全情報の漏洩を9.9%に削減し、追加のプライバシープロンプトを併用することで精度59.3%、漏洩率7.6%を達成した。
論文の注目点
- MosaicLeaksは、非公開の企業ドキュメントと公開されたWeb情報を結びつけることで回答を導出するよう設計された1,001タスクのベンチマークであり、クエリベースの漏洩の現実的な状況を作り出す。
- プライバシーは外部クエリのみから「意図の漏洩」「回答の漏洩」「完全な情報の漏洩」の3つのレベルで評価され、直接的およびモザイク型の情報開示リスクの両方を捉える。
- 提案されたPA-DR強化学習アプローチは、単純なプロンプトやパフォーマンスのみを重視したトレーニングとは異なり、タスクのパフォーマンスを向上させながら深刻な漏洩を大幅に低減する。