論文の概要: You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents
- arxiv url: http://arxiv.org/abs/2603.11862v1
- Date: Thu, 12 Mar 2026 12:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.070515
- Title: You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents
- Title(参考訳): LLMエージェントにおける教育用テキストによる個人データ漏洩の測定
- Authors: Ching-Yu Kao, Xinfeng Li, Shenyu Dai, Tianze Qiu, Pengcheng Zhou, Eric Hanchen Jiang, Philip Sperl,
- Abstract要約: 外部文書を自律的に処理する高特権のLLMエージェントは、タスクを自動化するためにますます信頼されている。
これらのエージェントには、最小限のセキュリティ監視で端末アクセス、制御、アウトバウンドネットワーク接続が与えられる。
emphTrusted Executor Dilemmaと呼ばれるこの信頼モデルの基本的脆弱性を測定する。
この脆弱性は、実装バグではなく、命令追従設計パラダイムの構造的な結果である。
- 参考スコア(独自算出の注目度): 9.719776777345364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-privilege LLM agents that autonomously process external documentation are increasingly trusted to automate tasks by reading and executing project instructions, yet they are granted terminal access, filesystem control, and outbound network connectivity with minimal security oversight. We identify and systematically measure a fundamental vulnerability in this trust model, which we term the \emph{Trusted Executor Dilemma}: agents execute documentation-embedded instructions, including adversarial ones, at high rates because they cannot distinguish malicious directives from legitimate setup guidance. This vulnerability is a structural consequence of the instruction-following design paradigm, not an implementation bug. To structure our measurement, we formalize a three-dimensional taxonomy covering linguistic disguise, structural obfuscation, and semantic abstraction, and construct \textbf{ReadSecBench}, a benchmark of 500 real-world README files enabling reproducible evaluation. Experiments on the commercially deployed computer-use agent show end-to-end exfiltration success rates up to 85\%, consistent across five programming languages and three injection positions. Cross-model evaluation on four LLM families in a simulation environment confirms that semantic compliance with injected instructions is consistent across model families. A 15-participant user study yields a 0\% detection rate across all participants, and evaluation of 12 rule-based and 6 LLM-based defenses shows neither category achieves reliable detection without unacceptable false-positive rates. Together, these results quantify a persistent \emph{Semantic-Safety Gap} between agents' functional compliance and their security awareness, establishing that documentation-embedded instruction injection is a persistent and currently unmitigated threat to high-privilege LLM agent deployments.
- Abstract(参考訳): 外部文書を自律的に処理する高特権のLLMエージェントは、プロジェクト命令を読み、実行することでタスクを自動化することをますます信頼されている。
エージェントは、正統なセットアップガイダンスから悪意のある指示を区別できないため、敵を含む文書埋め込み命令を高いレートで実行します。
この脆弱性は、実装バグではなく、命令追従設計パラダイムの構造的な結果である。
本研究では,言語的偽装,構造的難読化,意味的抽象化を含む3次元分類を定式化し,再現可能な評価が可能な実世界のREADME500ファイルのベンチマークであるtextbf{ReadSecBench}を構築した。
商用にデプロイされたコンピュータ・ユース・エージェントの実験では、5つのプログラミング言語と3つのインジェクション・ポジションで一致した、エンド・ツー・エンドのろ過成功率を最大85 %まで示した。
シミュレーション環境における4つのLLMファミリーのクロスモデル評価は、インジェクション命令による意味的コンプライアンスがモデルファミリ間で一貫していることを確認する。
15名を対象にしたユーザスタディでは,全参加者に対して0\%の検出率を示し,ルールベースおよびLDMベースの12のディフェンスの評価では,許容不能な偽陽性率を伴わない信頼性の高い検出が得られなかった。
これらの結果は、エージェントの機能的コンプライアンスとセキュリティ意識の間で永続的な 'emph{Semantic-Safety Gap} を定量化し、ドキュメント組み込みの命令インジェクションは、高特権のLDMエージェントデプロイメントに対する永続的で、現在未解決の脅威であることを確認した。
関連論文リスト
- CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning [31.790490397086856]
大規模言語モデル(LLM)統合アプリケーションはますます普及しているが、プロンプトインジェクション(PI)攻撃による重大なセキュリティ上の脆弱性に直面している。
InstruCoTは、多種多様な訓練データを合成し、微調整を指示レベルチェーンで行うPIディフェンスのモデル拡張手法である。
論文 参考訳(メタデータ) (2026-01-08T07:25:27Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security [0.0]
大規模言語モデル(LLM)は、ネイティブコードインタプリタを統合し、リアルタイム実行機能を実現する。
これらの統合は、システムレベルのサイバーセキュリティの脅威をもたらす可能性がある。
本稿では、CPU、メモリ、ディスクリソースの枯渇をターゲットとした1,260プロンプトからなる単純なベンチマークであるCIRCLE(Code-Interpreter Resilience Check for LLM Exploits)を提案する。
論文 参考訳(メタデータ) (2025-07-25T16:06:16Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。
我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。
我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-02-18T08:17:32Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。