論文の概要: NeuroFilter: Privacy Guardrails for Conversational LLM Agents
- arxiv url: http://arxiv.org/abs/2601.14660v1
- Date: Wed, 21 Jan 2026 05:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.238908
- Title: NeuroFilter: Privacy Guardrails for Conversational LLM Agents
- Title(参考訳): NeuroFilter:会話型LLMエージェントのためのプライバシガードレール
- Authors: Saswat Das, Ferdinando Fioretto,
- Abstract要約: 本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 50.75206727081996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the computational challenge of enforcing privacy for agentic Large Language Models (LLMs), where privacy is governed by the contextual integrity framework. Indeed, existing defenses rely on LLM-mediated checking stages that add substantial latency and cost, and that can be undermined in multi-turn interactions through manipulation or benign-looking conversational scaffolding. Contrasting this background, this paper makes a key observation: internal representations associated with privacy-violating intent can be separated from benign requests using linear structure. Using this insight, the paper proposes NeuroFilter, a guardrail framework that operationalizes contextual integrity by mapping norm violations to simple directions in the model's activation space, enabling detection even when semantic filters are bypassed. The proposed filter is also extended to capture threats arising during long conversations using the concept of activation velocity, which measures cumulative drift in internal representations across turns. A comprehensive evaluation across over 150,000 interactions and covering models from 7B to 70B parameters, illustrates the strong performance of NeuroFilter in detecting privacy attacks while maintaining zero false positives on benign prompts, all while reducing the computational inference cost by several orders of magnitude when compared to LLM-based agentic privacy defenses.
- Abstract(参考訳): この研究は、文脈整合性フレームワークによってプライバシが管理されるエージェント言語モデル(LLM)のプライバシを強制する、という計算上の課題に対処する。
実際、既存の防御はLCMを介するチェックステージに依存しており、遅延とコストが大きくなり、操作や良質な会話の足場を通してのマルチターンインタラクションが損なわれる可能性がある。
プライバシ侵害意図に関連する内部表現は,線形構造を用いた良性要求から分離することができる。
この知見を用いて,ノルム違反をモデルのアクティベーション空間の単純な方向にマッピングすることで,文脈整合性を運用するガードレールフレームワークであるNeuroFilterを提案し,セマンティックフィルタをバイパスしても検出できることを示した。
提案フィルタは,旋回する内部表現における累積ドリフトを計測するアクティベーション速度の概念を用いて,長時間会話中に発生する脅威を捕捉するために拡張される。
15万以上のインタラクションと7Bから70Bパラメータのモデルをカバーする包括的な評価は、プライバシー攻撃の検出においてNeuroFilterの強いパフォーマンスを示し、良心的なプロンプトに対する偽陽性をゼロにしつつ、LLMベースのエージェントプライバシ防御と比較すると、計算的推論コストを桁違いに削減している。
関連論文リスト
- SALT: Steering Activations towards Leakage-free Thinking in Chain of Thought [8.165127822088499]
大規模言語モデル(LLM)は、機密性の高いユーザデータにアクセス可能なパーソナルアシスタントへと進化する。
最近の知見によると、LLMは内部の推論プロセスを通じて個人情報を漏らし、文脈的プライバシーの期待に反する。
本稿では,Steering Activations to Leakage-free Thinking (SALT)について紹介する。
論文 参考訳(メタデータ) (2025-11-11T02:45:48Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration [72.33801123508145]
大規模言語モデル(LLM)はマルチエージェントシステムに不可欠なものである。
プライバシーリスクは、暗記、直接推論、シングルターン評価を超えて現れる。
特に、相互作用によって構成される一見無害な反応は、敵が機密情報の回復を累積的に行うことができる。
論文 参考訳(メタデータ) (2025-09-16T16:57:25Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - Quantifying Conversation Drift in MCP via Latent Polytope [12.004235167472238]
Model Context Protocol(MCP)は、外部ツールを統合することで、大きな言語モデル(LLM)を強化する。
逆向きに作られたコンテンツは、ツール中毒や間接的なプロンプト注射を誘発し、会話のハイジャック、誤情報伝播、データ流出につながる。
本稿では,会話のドリフト,空間軌跡の偏差を,対向的外部知識により検出し,定量化するフレームワークであるSecMCPを提案する。
論文 参考訳(メタデータ) (2025-08-08T16:05:27Z) - Convergent Privacy Framework with Contractive GNN Layers for Multi-hop Aggregations [9.399260063250635]
微分プライバシー(DP)は、機密構造情報を保護するためにグラフニューラルネットワーク(GNN)に統合されている。
理論的保証に必要な契約性を保証するための,シンプルで効果的な契約グラフ層(CGL)を提案する。
当社のフレームワークであるCARIBOUは,トレーニングと推論の両方をサポートし,契約集約モジュール,プライバシ割り当てモジュール,プライバシ監査モジュールを備えている。
論文 参考訳(メタデータ) (2025-06-28T02:17:53Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - Beyond Jailbreaking: Auditing Contextual Privacy in LLM Agents [43.303548143175256]
本研究では,リスクに対するエージェントの感受性を定量的に評価する,会話プライバシのための監査フレームワークを提案する。
CMPL(Conversational Manipulation for Privacy Leakage)フレームワークは、厳格なプライバシー命令を強制するエージェントをストレステストするために設計されている。
論文 参考訳(メタデータ) (2025-06-11T20:47:37Z) - Urania: Differentially Private Insights into AI Use [102.27238986985698]
$Urania$は、クラスタリング、パーティション選択、ヒストグラムベースの要約といったDPツールを活用することによって、エンドツーエンドのプライバシ保護を提供する。
結果は、厳密なユーザのプライバシを維持しながら、意味のある会話の洞察を抽出するフレームワークの能力を示している。
論文 参考訳(メタデータ) (2025-06-05T07:00:31Z) - Noisy Neighbors: Efficient membership inference attacks against LLMs [2.666596421430287]
本稿では,組込み空間に雑音を付加することにより,対象試料のテクストノイズを発生させる効率的な手法を提案する。
提案手法はシャドウモデルの有効性と密に一致し,実際のプライバシー監査シナリオにおけるユーザビリティを示す。
論文 参考訳(メタデータ) (2024-06-24T12:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。