論文の概要: Network-Level Prompt and Trait Leakage in Local Research Agents
- arxiv url: http://arxiv.org/abs/2508.20282v2
- Date: Wed, 03 Sep 2025 03:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 13:11:21.933226
- Title: Network-Level Prompt and Trait Leakage in Local Research Agents
- Title(参考訳): 地域研究機関におけるネットワークレベルプロンプトとトレートリーク
- Authors: Hyejun Jeong, Mohammadreza Teymoorianfard, Abhinav Kumar, Amir Houmansadr, Eugene Bagdasarian,
- Abstract要約: Web と Research Agents (WRA) は,ISP などのパッシブネットワーク敵による推論攻撃に対して脆弱であることを示す。
WRAは、プライバシー、法的、財務上の目的のために、組織や個人によってローカルにデプロイできる。
- 参考スコア(独自算出の注目度): 19.89535252097747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that Web and Research Agents (WRAs) -- language model-based systems that investigate complex topics on the Internet -- are vulnerable to inference attacks by passive network adversaries such as ISPs. These agents could be deployed locally by organizations and individuals for privacy, legal, or financial purposes. Unlike sporadic web browsing by humans, WRAs visit $70{-}140$ domains with distinguishable timing correlations, enabling unique fingerprinting attacks. Specifically, we demonstrate a novel prompt and user trait leakage attack against WRAs that only leverages their network-level metadata (i.e., visited IP addresses and their timings). We start by building a new dataset of WRA traces based on user search queries and queries generated by synthetic personas. We define a behavioral metric (called OBELS) to comprehensively assess similarity between original and inferred prompts, showing that our attack recovers over 73% of the functional and domain knowledge of user prompts. Extending to a multi-session setting, we recover up to 19 of 32 latent traits with high accuracy. Our attack remains effective under partial observability and noisy conditions. Finally, we discuss mitigation strategies that constrain domain diversity or obfuscate traces, showing negligible utility impact while reducing attack effectiveness by an average of 29%.
- Abstract(参考訳): インターネット上の複雑なトピックを調査する言語モデルベースシステムである Web and Research Agents (WRA) は,ISP などの受動的ネットワーク敵による推論攻撃に対して脆弱であることを示す。
これらのエージェントは、プライバシー、法的、財務上の目的のために、組織や個人によってローカルにデプロイできる。
人間による散発的なWebブラウジングとは異なり、WRAは70{-}140$ドメインを訪れ、ユニークな指紋認証攻撃を可能にする。
具体的には、ネットワークレベルのメタデータ(IPアドレスとタイミング)のみを活用するWRAに対して、新しいプロンプトおよびユーザ特性の漏洩攻撃を実演する。
まず、ユーザ検索クエリと合成ペルソナによって生成されるクエリに基づいて、WRAトレースの新しいデータセットを構築する。
動作指標(OBELS)を定義し、元のプロンプトと推論されたプロンプトの類似性を包括的に評価し、ユーザプロンプトに関する機能的およびドメイン的知識の73%以上を攻撃が回復することを示す。
マルチセッション設定まで拡張し,32個の潜伏特性のうち19個を高精度に復元する。
我々の攻撃は、部分的な可観測性とノイズ条件下でも有効である。
最後に、ドメインの多様性や難読化トレースを制限し、攻撃効果を平均29%削減しつつ、無視可能なユーティリティへの影響を示す緩和戦略について議論する。
関連論文リスト
- Searching for Privacy Risks in LLM Agents via Simulation [60.22650655805939]
本稿では、プライバシクリティカルなエージェントインタラクションをシミュレートすることで、攻撃者の改善とディフェンダーの指示を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、単純な直接要求から、偽造や同意偽造といった高度な多ターン戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。
高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。
攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文 参考訳(メタデータ) (2025-04-22T17:51:03Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - How Deep Learning Sees the World: A Survey on Adversarial Attacks &
Defenses [0.0]
本稿では、攻撃能力によってグループ化された最新の敵攻撃と、防御戦略によってクラスタ化された現代の防御をコンパイルする。
また、視覚変換器に関する新たな進歩を提示し、敵対的設定の文脈で使用されるデータセットとメトリクスを要約し、異なる攻撃下での最先端の結果を比較し、オープンな問題の特定で終了する。
論文 参考訳(メタデータ) (2023-05-18T10:33:28Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。