Fugu-MT 論文翻訳(概要): Disclosure Audits for LLM Agents

論文の概要: Disclosure Audits for LLM Agents

arxiv url: http://arxiv.org/abs/2506.10171v1
Date: Wed, 11 Jun 2025 20:47:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.449512
Title: Disclosure Audits for LLM Agents
Title（参考訳）: LLMエージェントの開示監査
Authors: Saswat Das, Jameson Sandler, Ferdinando Fioretto,
Abstract要約: 大規模言語モデルエージェントは、パーソナルアシスタント、カスタマーサービスボット、臨床助手として登場し始めている。本研究では、これらのリスクを定量化し、監査する会話プライバシのための監査フレームワークを提案する。
参考スコア（独自算出の注目度）: 44.27620230177312
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Model agents have begun to appear as personal assistants, customer service bots, and clinical aides. While these applications deliver substantial operational benefits, they also require continuous access to sensitive data, which increases the likelihood of unauthorized disclosures. This study proposes an auditing framework for conversational privacy that quantifies and audits these risks. The proposed Conversational Manipulation for Privacy Leakage (CMPL) framework, is an iterative probing strategy designed to stress-test agents that enforce strict privacy directives. Rather than focusing solely on a single disclosure event, CMPL simulates realistic multi-turn interactions to systematically uncover latent vulnerabilities. Our evaluation on diverse domains, data modalities, and safety configurations demonstrate the auditing framework's ability to reveal privacy risks that are not deterred by existing single-turn defenses. In addition to introducing CMPL as a diagnostic tool, the paper delivers (1) an auditing procedure grounded in quantifiable risk metrics and (2) an open benchmark for evaluation of conversational privacy across agent implementations.
Abstract（参考訳）: 大規模言語モデルエージェントは、パーソナルアシスタント、カスタマーサービスボット、臨床助手として登場し始めている。これらのアプリケーションは、相当な運用上のメリットを提供するが、機密データへの継続的なアクセスも要求されるため、不正な開示の可能性が高まる。本研究では、これらのリスクを定量化し、監査する会話プライバシのための監査フレームワークを提案する。提案されているConversational Manipulation for Privacy Leakage(CMPL)フレームワークは、厳格なプライバシディディレクティブを強制するストレステストエージェントを対象とした反復的な探索戦略である。 CMPLは、単一の開示イベントのみに焦点を当てるのではなく、現実的なマルチターンインタラクションをシミュレートして、体系的に潜伏する脆弱性を明らかにする。多様なドメイン、データモダリティ、安全設定に対する評価は、監査フレームワークが既存の単一ターン防御によって妨げられていないプライバシーリスクを明らかにする能力を示している。診断ツールとしてのCMPLの導入に加えて,(1)定量化リスク指標に基づく監査手順,(2)エージェント実装間の会話プライバシ評価のためのオープンベンチマークを提供する。

関連論文リスト

DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [59.66984417026933]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文参考訳（メタデータ） (2025-07-08T03:07:15Z)
MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文参考訳（メタデータ） (2025-06-25T18:04:25Z)
Invisible Tokens, Visible Bills: The Urgent Need to Audit Hidden Operations in Opaque LLM Services [22.700907666937177]
このポジションペーパーは、Opaque LLM Services(COLS)における新たな説明責任の課題を浮き彫りにしている。トークンとコールカウントを人工的に膨らませるtextitquantity inflationと、プロバイダが低価格のモデルやツールを静かに置き換えるtextitquality downgradeの2つの主要なリスクを形式化する。本研究では,COLSとユーザを対象としたモジュール型3層監査フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-24T02:26:49Z)
A Survey on Privacy Risks and Protection in Large Language Models [13.602836059584682]
大規模言語モデル(LLM)は多様なアプリケーションにますます統合され、プライバシーの懸念が高まっている。この調査は、LCMに関連するプライバシーリスクの包括的概要を提供し、これらの課題を軽減するための現在のソリューションを調べます。
論文参考訳（メタデータ） (2025-05-04T03:04:07Z)
AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence [54.317522790545304]
本稿では,言語エージェントの動作制約やルーチンに対するコンプライアンスを評価するための,デュアルシステムフレームワークであるAgentOrcaを提案する。本フレームワークは,エージェントの自然言語プロンプトと,それに対応する実行可能コードが,自動検証のための基礎的真理として機能することを通じて,行動制約とルーチンを符号化する。以上の結果から,o1のような大きな推論モデルではコンプライアンスが良好であり,他のモデルではパフォーマンスが著しく低下していることが明らかとなった。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
Privacy Audit as Bits Transmission: (Im)possibilities for Audit by One Run [7.850976675388593]
情報理論の原則に基づくプライバシー監査のための統一フレームワークを提案する。プライバシ監査の手法を1回実行することで,単一実行監査が実現可能あるいは実現不可能な条件を特定する。
論文参考訳（メタデータ） (2025-01-29T16:38:51Z)
Privacy-Preserving Customer Support: A Framework for Secure and Scalable Interactions [0.0]
本稿では,大規模言語モデル(LLM)をゼロショット学習モードで活用する新しいアプローチとして,プライバシー保護ゼロショット学習(PP-ZSL)フレームワークを提案する。従来の機械学習手法とは異なり、PP-ZSLは、事前学習されたLLMを使用して直接応答を生成することで、機密データに対する局所的なトレーニングを不要にしている。このフレームワークには、リアルタイムデータ匿名化による機密情報の修正やマスク、ドメイン固有のクエリ解決のための検索強化生成(RAG)、規制基準の遵守を保証するための堅牢な後処理が含まれている。
論文参考訳（メタデータ） (2024-12-10T17:20:47Z)
Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。 InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文参考訳（メタデータ） (2024-07-16T15:24:44Z)
Privacy Risks of General-Purpose AI Systems: A Foundation for Investigating Practitioner Perspectives [47.17703009473386]
強力なAIモデルによって、幅広いタスクでパフォーマンスが飛躍的に向上した。プライバシの懸念は、さまざまなプライバシのリスクとAIモデルの脆弱性をカバーした、豊富な文献につながっている。我々はこれらの調査論文の体系的なレビューを行い、GPAISにおけるプライバシーリスクの簡潔かつ有用な概観を提供する。
論文参考訳（メタデータ） (2024-07-02T07:49:48Z)
Noisy Neighbors: Efficient membership inference attacks against LLMs [2.666596421430287]
本稿では,組込み空間に雑音を付加することにより,対象試料のテクストノイズを発生させる効率的な手法を提案する。提案手法はシャドウモデルの有効性と密に一致し,実際のプライバシー監査シナリオにおけるユーザビリティを示す。
論文参考訳（メタデータ） (2024-06-24T12:02:20Z)
Coordinated Flaw Disclosure for AI: Beyond Security Vulnerabilities [1.3225694028747144]
本稿では,機械学習(ML)問題の複雑度に合わせたコーディネート・フレーバー開示フレームワークを提案する。本フレームワークは,拡張モデルカード,ダイナミックスコープ拡張,独立適応パネル,自動検証プロセスなどのイノベーションを導入している。 CFDはAIシステムに対する公的な信頼を著しく向上させる可能性があると我々は主張する。
論文参考訳（メタデータ） (2024-02-10T20:39:04Z)
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文参考訳（メタデータ） (2024-02-06T18:54:07Z)
Tight Auditing of Differentially Private Machine Learning [77.38590306275877]
プライベート機械学習では、既存の監査メカニズムは厳格である。彼らは不確実な最悪の仮定の下でのみ厳密な見積もりを行う。我々は、自然(逆向きではない)データセットの厳密なプライバシー推定を得られる改善された監査スキームを設計する。
論文参考訳（メタデータ） (2023-02-15T21:40:33Z)
Having your Privacy Cake and Eating it Too: Platform-supported Auditing of Social Media Algorithms for Public Interest [70.02478301291264]
ソーシャルメディアプラットフォームは、情報や機会へのアクセスをキュレートするので、公衆の言論を形成する上で重要な役割を果たす。これまでの研究では、これらのアルゴリズムが偏見や差別的な結果をもたらすことを示すためにブラックボックス法が用いられてきた。本稿では,提案法の目標を満たすプラットフォーム支援型監査手法を提案する。
論文参考訳（メタデータ） (2022-07-18T17:32:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。