論文の概要: The Surface You Test Is Not the Surface That Breaks
- arxiv url: http://arxiv.org/abs/2605.30454v1
- Date: Thu, 28 May 2026 18:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.16918
- Title: The Surface You Test Is Not the Surface That Breaks
- Title(参考訳): テストするサーフェス、壊れるサーフェスではない
- Authors: Shifat E Arman, Syed Nazmus Sakib, Nafiul Haque, Shahrear Bin Amin,
- Abstract要約: エージェントのコンテキストの一部を制御するサードパーティは、エージェントがユーザから来たかのように実行する命令を配置することができる。
現在の評価では、1つのチャネルで1モデル当たりの攻撃成功率を報告している。
しかし、ツール記述自体が、攻撃者が代わりに選択できるインジェクションサーフェスである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tool-augmented LLM agents are vulnerable to prompt injection: a third party who controls part of the agent's context can plant instructions that the agent then executes as if they came from the user. Current evaluations report a single attack success rate per model on one channel, the tool output and treat that number as the model's vulnerability. But tool descriptions, which the agent reads at every turn before any tool is called, are themselves an injection surface that the attacker can choose instead. We hold the injection payload byte-identical and deliver it through both surfaces across 13 LLMs from six families and four task suites. The same bytes invert in success rate across models: GPT-4.1 is 96 percent vulnerable on tool outputs but only 4 percent on tool descriptions, while GEMINI-3-FLASH shows the mirror pattern at 20 percent and 98 percent. A variance decomposition over 6,830 attempts attributes 0 percent of the variation in attack outcomes to the surface alone, while the model-surface interaction accounts for 16.7 percent. Vulnerability is a property of the pairing, not the channel. The Adaptive Attack Rate, defined as the per-cell maximum over surfaces, exceeds the strongest fixed-surface baseline by +9.1 percentage points on average. Standard prompt-level defenses inherit the same blindspot, reducing tool-output ASR to 10-18 percent while leaving the description channel above 54 percent. Both attack and defense evaluation must report per-surface vulnerability.
- Abstract(参考訳): エージェントのコンテキストの一部をコントロールしているサードパーティは、エージェントがユーザから来たかのように実行する命令を配置することができる。
現在の評価では、1つのチャネルで1つのモデルに対して1回の攻撃成功率を報告している。
しかし、エージェントが任意のツールが呼び出される前に各ターンで読むツール記述は、攻撃者が代わりに選択できるインジェクションサーフェスである。
我々は、インジェクションペイロードをバイト単位に保持し、6つのファミリーと4つのタスクスイートから13のLLMの両面を通してそれを提供する。
GPT-4.1はツール出力に96%の脆弱性があるが、ツール記述に4%しか影響しないのに対して、GEMINI-3-FLASHはミラーパターンの20%と98%を示している。
6,830回以上の分散分解を試みると、攻撃結果の変化の0パーセントは表面だけで、モデルと表面の相互作用は16.7%である。
脆弱性はチャネルではなくペアリングの特性である。
アダプティブ・アタック・レート(Adaptive Attack Rate)は、セル当たりの最大値として定義され、固定面ベースラインの最大値が平均で+9.1ポイントを超える。
標準的なプロンプトレベルの防衛は、同じ盲点を継承し、ツール出力のASRを10-18パーセントに削減し、説明チャネルを54%以上残している。
攻撃と防御の評価の両方は、表面的脆弱性を報告しなければならない。
関連論文リスト
- Poisoning the Watchtower: Prompt Injection Attacks Against LLM-Augmented Security Operations Through Adversarial Log Content [1.5369106213673014]
大規模言語モデル(LLMs)は、セキュリティオペレーションセンター(SOCs)のアナリストアシスタントとしてますます使われている。
この設計における構造的障害モードについて検討し、多くのログフィールドがアタッカー制御されている。
直接オーバーライド(S1)、ペルソナ・ヒジャック(S2)、コンテキスト操作(S3)、難読化ペイロード(S4)の4つのクラスに分類する。
論文 参考訳(メタデータ) (2026-05-23T06:21:10Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw [87.97230960702274]
本稿では,OpenClawの安全性評価について紹介する。
エージェントの永続状態を3次元に統一するCIK分類法を導入する。
評価では、ライブOpenClawインスタンス上の12のアタックシナリオをカバーしています。
論文 参考訳(メタデータ) (2026-04-06T15:27:05Z) - Measuring the Permission Gate: A Stress-Test Evaluation of Claude Code's Auto Mode [9.116800340266066]
Claude Codeの自動モードは、AIコーディングエージェントに最初にデプロイされたパーミッションシステムである。
Anthropicは、生産トラフィックに対して0.4%の偽陽性率と17%の偽陰性率を報告している。
本研究では, 個々の行動レベルでの状態変化行動253件を, オラクル・グラウンドの真理に対して評価した。
論文 参考訳(メタデータ) (2026-04-04T17:56:30Z) - Agent Privilege Separation in OpenClaw: A Structural Defense Against Prompt Injection [0.0]
オープンソースマルチツールエージェントプラットフォームであるOpenClaw内で動作している現在の世代モデルに対して、Microsoft LLMail-Injectベンチマークを複製します。
提案する防御機構は,エージェント分離を特権分離した2エージェントパイプラインとして実装したツールパーティショニングと,アクションエージェントが処理する前にパーサシブフレーミングを除去する構造化された出力を生成するフォーマッティングの2つを組み合わせたものである。
論文 参考訳(メタデータ) (2026-03-13T02:03:00Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers [12.669529656631937]
MCPToxは,現実的なMCP設定において,ツールポジショニングに対するエージェントの堅牢性を評価する最初のベンチマークである。
MCPToxは、数ショットの学習によって1312の悪意のあるテストケースの包括的なスイートを生成し、潜在的なリスクの10のカテゴリをカバーする。
評価の結果,o1-miniで72.8%の攻撃成功率を達成したツールポイジングの脆弱性が広く報告されている。
論文 参考訳(メタデータ) (2025-08-19T10:12:35Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。