論文の概要: Disclosure Audits for LLM Agents
- arxiv url: http://arxiv.org/abs/2506.10171v1
- Date: Wed, 11 Jun 2025 20:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.449512
- Title: Disclosure Audits for LLM Agents
- Title(参考訳): LLMエージェントの開示監査
- Authors: Saswat Das, Jameson Sandler, Ferdinando Fioretto,
- Abstract要約: 大規模言語モデルエージェントは、パーソナルアシスタント、カスタマーサービスボット、臨床助手として登場し始めている。
本研究では、これらのリスクを定量化し、監査する会話プライバシのための監査フレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.27620230177312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model agents have begun to appear as personal assistants, customer service bots, and clinical aides. While these applications deliver substantial operational benefits, they also require continuous access to sensitive data, which increases the likelihood of unauthorized disclosures. This study proposes an auditing framework for conversational privacy that quantifies and audits these risks. The proposed Conversational Manipulation for Privacy Leakage (CMPL) framework, is an iterative probing strategy designed to stress-test agents that enforce strict privacy directives. Rather than focusing solely on a single disclosure event, CMPL simulates realistic multi-turn interactions to systematically uncover latent vulnerabilities. Our evaluation on diverse domains, data modalities, and safety configurations demonstrate the auditing framework's ability to reveal privacy risks that are not deterred by existing single-turn defenses. In addition to introducing CMPL as a diagnostic tool, the paper delivers (1) an auditing procedure grounded in quantifiable risk metrics and (2) an open benchmark for evaluation of conversational privacy across agent implementations.
- Abstract(参考訳): 大規模言語モデルエージェントは、パーソナルアシスタント、カスタマーサービスボット、臨床助手として登場し始めている。
これらのアプリケーションは、相当な運用上のメリットを提供するが、機密データへの継続的なアクセスも要求されるため、不正な開示の可能性が高まる。
本研究では、これらのリスクを定量化し、監査する会話プライバシのための監査フレームワークを提案する。
提案されているConversational Manipulation for Privacy Leakage(CMPL)フレームワークは、厳格なプライバシディディレクティブを強制するストレステストエージェントを対象とした反復的な探索戦略である。
CMPLは、単一の開示イベントのみに焦点を当てるのではなく、現実的なマルチターンインタラクションをシミュレートして、体系的に潜伏する脆弱性を明らかにする。
多様なドメイン、データモダリティ、安全設定に対する評価は、監査フレームワークが既存の単一ターン防御によって妨げられていないプライバシーリスクを明らかにする能力を示している。
診断ツールとしてのCMPLの導入に加えて,(1)定量化リスク指標に基づく監査手順,(2)エージェント実装間の会話プライバシ評価のためのオープンベンチマークを提供する。
関連論文リスト
- AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence [54.317522790545304]
本稿では,言語エージェントの動作制約やルーチンに対するコンプライアンスを評価するための,デュアルシステムフレームワークであるAgentOrcaを提案する。
本フレームワークは,エージェントの自然言語プロンプトと,それに対応する実行可能コードが,自動検証のための基礎的真理として機能することを通じて,行動制約とルーチンを符号化する。
以上の結果から,o1のような大きな推論モデルではコンプライアンスが良好であり,他のモデルではパフォーマンスが著しく低下していることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Privacy Audit as Bits Transmission: (Im)possibilities for Audit by One Run [7.850976675388593]
情報理論の原則に基づくプライバシー監査のための統一フレームワークを提案する。
プライバシ監査の手法を1回実行することで,単一実行監査が実現可能あるいは実現不可能な条件を特定する。
論文 参考訳(メタデータ) (2025-01-29T16:38:51Z) - Privacy-Preserving Customer Support: A Framework for Secure and Scalable Interactions [0.0]
本稿では,大規模言語モデル(LLM)をゼロショット学習モードで活用する新しいアプローチとして,プライバシー保護ゼロショット学習(PP-ZSL)フレームワークを提案する。
従来の機械学習手法とは異なり、PP-ZSLは、事前学習されたLLMを使用して直接応答を生成することで、機密データに対する局所的なトレーニングを不要にしている。
このフレームワークには、リアルタイムデータ匿名化による機密情報の修正やマスク、ドメイン固有のクエリ解決のための検索強化生成(RAG)、規制基準の遵守を保証するための堅牢な後処理が含まれている。
論文 参考訳(メタデータ) (2024-12-10T17:20:47Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Noisy Neighbors: Efficient membership inference attacks against LLMs [2.666596421430287]
本稿では,組込み空間に雑音を付加することにより,対象試料のテクストノイズを発生させる効率的な手法を提案する。
提案手法はシャドウモデルの有効性と密に一致し,実際のプライバシー監査シナリオにおけるユーザビリティを示す。
論文 参考訳(メタデータ) (2024-06-24T12:02:20Z) - Coordinated Flaw Disclosure for AI: Beyond Security Vulnerabilities [1.3225694028747144]
本稿では,機械学習(ML)問題の複雑度に合わせたコーディネート・フレーバー開示フレームワークを提案する。
本フレームワークは,拡張モデルカード,ダイナミックスコープ拡張,独立適応パネル,自動検証プロセスなどのイノベーションを導入している。
CFDはAIシステムに対する公的な信頼を著しく向上させる可能性があると我々は主張する。
論文 参考訳(メタデータ) (2024-02-10T20:39:04Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Tight Auditing of Differentially Private Machine Learning [77.38590306275877]
プライベート機械学習では、既存の監査メカニズムは厳格である。
彼らは不確実な最悪の仮定の下でのみ厳密な見積もりを行う。
我々は、自然(逆向きではない)データセットの厳密なプライバシー推定を得られる改善された監査スキームを設計する。
論文 参考訳(メタデータ) (2023-02-15T21:40:33Z) - Having your Privacy Cake and Eating it Too: Platform-supported Auditing
of Social Media Algorithms for Public Interest [70.02478301291264]
ソーシャルメディアプラットフォームは、情報や機会へのアクセスをキュレートするので、公衆の言論を形成する上で重要な役割を果たす。
これまでの研究では、これらのアルゴリズムが偏見や差別的な結果をもたらすことを示すためにブラックボックス法が用いられてきた。
本稿では,提案法の目標を満たすプラットフォーム支援型監査手法を提案する。
論文 参考訳(メタデータ) (2022-07-18T17:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。