論文の概要: CIPL: A Target-Independent Framework for Channel-Inversion Privacy Leakage in Agents
- arxiv url: http://arxiv.org/abs/2603.22751v1
- Date: Tue, 24 Mar 2026 03:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.273928
- Title: CIPL: A Target-Independent Framework for Channel-Inversion Privacy Leakage in Agents
- Title(参考訳): CIPL: エージェントのチャネル反転プライバシリークのためのターゲット非依存フレームワーク
- Authors: Tao Huang, Chen Hou, Jiayang Meng,
- Abstract要約: エージェントシステムにおけるプライバシリークを,チャネル逆転問題として定式化する。
このような攻撃を対象としないフレームワークであるCIPL(Channel Inversion for Privacy Leakage)を提案する。
- 参考スコア(独自算出の注目度): 21.360092008773176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents may expose sensitive information through more than their final textual responses. Whenever private content is internally selected, assembled, and reused inside an agent pipeline, an attacker may attempt to turn that hidden dependence into an observable output signal. Existing evidence of this risk is strongest for memory leakage, but current attack formulations remain largely tied to specific systems and output surfaces. In this paper, we formulate privacy leakage in agentic systems as a \emph{channel inversion} problem and present CIPL (Channel Inversion for Privacy Leakage), a target-independent framework for studying such attacks. CIPL represents a target system through a common signature consisting of a sensitive source, selection, assembly, execution, observation, and extraction stages, and instantiates attacks through a reusable attack language built from a locator, an aligner, and a diversification policy. As a unified evaluation framework, CIPL supports cross-target comparison while preserving target-specific execution semantics. Our results provide initial evidence that privacy leakage is not confined to memory alone; instead, it depends on how sensitive content is routed into attacker-visible observation channels. These findings suggest that privacy evaluation for agentic systems should move beyond single-surface attack analysis toward a channel-oriented view of information exposure.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、最終的なテキスト応答以上の機密情報を公開することができる。
エージェントパイプライン内でプライベートコンテンツが内部で選択され、組み立てられ、再利用される場合、攻撃者はその隠れた依存を観測可能な出力信号に変換することができる。
このリスクの既存の証拠は、メモリリークにとって最強であるが、現在の攻撃の定式化は、特定のシステムや出力面に大きく結びついている。
本稿では,エージェントシステムにおけるプライバシリークを \emph{ channel inversion} 問題として定式化し,攻撃対象に依存しないCIPL(Channel Inversion for Privacy Leakage)を提案する。
CIPLは、センシティブなソース、選択、アセンブリ、実行、観察、抽出段階からなる共通のシグネチャを通じてターゲットシステムを表し、ロケータ、アライナ、多様化ポリシーから構築された再利用可能な攻撃言語を介して攻撃をインスタンス化する。
統合評価フレームワークとして、CIPLはターゲット固有の実行セマンティクスを保持しながら、クロスターゲット比較をサポートする。
我々の結果は、プライバシリークがメモリのみに限定されていないという最初の証拠を提供する。
これらの結果から,エージェントシステムのプライバシ評価は,単一面攻撃解析を超えて,情報公開のチャネル指向の視点に進むことが示唆された。
関連論文リスト
- Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection [32.301679396929536]
静的な入力フィルタリングから実行対応分析へ、防御パラダイムをシフトするフレームワークであるSysNameを提案する。
SysNameは断片化された操作プリミティブを連続した行動軌跡に合成し、システムアクティビティの全体像を可能にする。
実証的な評価により、SysNameは10以上の異なる複合攻撃ベクトルを効果的に検出し、それぞれノードレベルとパスレベルのエンドツーエンド攻撃検出に対して85.3%と66.7%のF1スコアを達成した。
論文 参考訳(メタデータ) (2026-03-04T01:59:16Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。
RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。
本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:50:16Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Beyond Jailbreaking: Auditing Contextual Privacy in LLM Agents [43.303548143175256]
本研究では,リスクに対するエージェントの感受性を定量的に評価する,会話プライバシのための監査フレームワークを提案する。
CMPL(Conversational Manipulation for Privacy Leakage)フレームワークは、厳格なプライバシー命令を強制するエージェントをストレステストするために設計されている。
論文 参考訳(メタデータ) (2025-06-11T20:47:37Z) - Safeguarding Privacy of Retrieval Data against Membership Inference Attacks: Is This Query Too Close to Home? [14.147748220718784]
RAGシステム用に設計された新しい類似性に基づくMIA検出フレームワークを提案する。
単純な検出・隠蔽戦略は攻撃者を難読化し、データユーティリティを維持でき、MIAに対してシステムに依存しないことを示す。
論文 参考訳(メタデータ) (2025-05-28T07:35:07Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。