論文の概要: Observable Channels, Not Just Storage: Evaluating Privacy Leakage in LLM Agent Pipelines
- arxiv url: http://arxiv.org/abs/2603.22751v2
- Date: Mon, 30 Mar 2026 10:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 13:48:18.786864
- Title: Observable Channels, Not Just Storage: Evaluating Privacy Leakage in LLM Agent Pipelines
- Title(参考訳): LLMエージェントパイプラインのプライバシ漏洩を評価する
- Authors: Tao Huang, Chen Hou, Guosen Wu, Jiayang Meng,
- Abstract要約: CIPLは、センシティブなソース、選択、アセンブリ、実行、観察、抽出段階を通じてターゲットを表現する共有方法を提供する。
メモリは、ほぼ飽和した高リスクの特別なケースとして振る舞うが、メモリ外リークは異なる状態を示す。
- 参考スコア(独自算出の注目度): 19.552857369765924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Privacy leakage in LLM agents is often studied through individual storage or execution components, such as memory modules, retrieval pipelines, or tool-mediated artifacts. However, these settings are typically analyzed in isolation, making it difficult to compare how private internal dependence becomes externally recoverable across heterogeneous agent pipelines. In this paper, we present CIPL (Channel Inversion for Privacy Leakage) as a unified channel-oriented measurement interface for evaluating privacy leakage in LLM agent pipelines. Rather than claiming a universally strongest attack recipe, CIPL provides a shared way to represent a target through its sensitive source, selection, assembly, execution, observation, and extraction stages, and to measure how internal exposure is transformed into attacker-recoverable leakage under a common protocol. Using memory-based, retrieval-mediated, and tool-mediated instantiations under this shared interface, we identify a distinct cross-target risk picture. Memory behaves as a near-saturated high-risk special case, while beyond-memory leakage exhibits a different regime: retrieval-mediated targets show frequent but often incomplete leakage, and tool-mediated targets are strongly shaped by the exposed observation surface and provider behavior. We further show that leakage is governed by channel conditions rather than by a universally dominant recipe: cleaned weak controls sharply suppress leakage, and semantic annotation reveals attacker-useful leakage beyond exact-match extraction. Together, these findings suggest that privacy risk in LLM agent pipelines is better understood through \emph{observable channels}, not just storage components. More broadly, our results motivate channel-oriented privacy evaluation as a necessary complement to component-local or exact-only analyses.
- Abstract(参考訳): LLMエージェントのプライバシリークは、メモリモジュールや検索パイプライン、ツールによるアーティファクトなど、個々のストレージや実行コンポーネントを通じて研究されることが多い。
しかしながら、これらの設定は通常、分離して分析されるため、不均一なエージェントパイプライン間で、プライベートな内部依存が外部にリカバリ可能であるかを比較することは困難である。
本稿では,CIPL(Channel Inversion for Privacy Leakage)をLLMエージェントパイプラインのプライバシリーク評価のための統一チャネル指向計測インタフェースとして提案する。
CIPLは、普遍的に最強の攻撃レシピを主張するのではなく、センシティブなソース、選択、アセンブリ、実行、観察、抽出段階を通じてターゲットを表現し、共通のプロトコルの下で内部の露光がどのようにアタッカーが回復可能な漏洩に変換されるかを測定する共有方法を提供する。
この共有インタフェース下では,メモリベース,検索介在,ツール介在のインスタンス化を用いて,異なるターゲット間リスク図を同定する。
メモリは、ほぼ飽和した高リスクの特殊なケースとして振る舞うが、メモリ外リークは異なる状態を示す: 検索介在するターゲットは、頻繁だが、しばしば不完全なリークを示し、ツール介在するターゲットは、露出した観察面とプロバイダの振る舞いによって強く形作られる。
さらに、リークは、普遍的に支配的なレシピではなく、チャネル条件によって管理されていることを示し、クリーン化された弱い制御は、リークを著しく抑制し、セマンティックアノテーションは、正確なマッチ抽出を超えて攻撃者が使用するリークを明らかにする。
これらの結果は、LLMエージェントパイプラインのプライバシリスクが、ストレージコンポーネントだけでなく、 \emph{observable channel}を通じてよりよく理解されていることを示唆している。
より広範に、我々はチャネル指向のプライバシ評価を、コンポーネントローカルまたは正確な分析に欠かせない補完として動機付けている。
関連論文リスト
- Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection [32.301679396929536]
静的な入力フィルタリングから実行対応分析へ、防御パラダイムをシフトするフレームワークであるSysNameを提案する。
SysNameは断片化された操作プリミティブを連続した行動軌跡に合成し、システムアクティビティの全体像を可能にする。
実証的な評価により、SysNameは10以上の異なる複合攻撃ベクトルを効果的に検出し、それぞれノードレベルとパスレベルのエンドツーエンド攻撃検出に対して85.3%と66.7%のF1スコアを達成した。
論文 参考訳(メタデータ) (2026-03-04T01:59:16Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。
RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。
本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:50:16Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Beyond Jailbreaking: Auditing Contextual Privacy in LLM Agents [43.303548143175256]
本研究では,リスクに対するエージェントの感受性を定量的に評価する,会話プライバシのための監査フレームワークを提案する。
CMPL(Conversational Manipulation for Privacy Leakage)フレームワークは、厳格なプライバシー命令を強制するエージェントをストレステストするために設計されている。
論文 参考訳(メタデータ) (2025-06-11T20:47:37Z) - Safeguarding Privacy of Retrieval Data against Membership Inference Attacks: Is This Query Too Close to Home? [14.147748220718784]
RAGシステム用に設計された新しい類似性に基づくMIA検出フレームワークを提案する。
単純な検出・隠蔽戦略は攻撃者を難読化し、データユーティリティを維持でき、MIAに対してシステムに依存しないことを示す。
論文 参考訳(メタデータ) (2025-05-28T07:35:07Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。