論文の概要: The Autonomy Tax: Defense Training Breaks LLM Agents
- arxiv url: http://arxiv.org/abs/2603.19423v1
- Date: Thu, 19 Mar 2026 19:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.850517
- Title: The Autonomy Tax: Defense Training Breaks LLM Agents
- Title(参考訳): 自治税:国防訓練がLLMエージェントを破る
- Authors: Shawn Li, Yue Zhao,
- Abstract要約: 安全を改善するために設計された防衛訓練は、高度な攻撃を防ぐのに失敗しながら、エージェントの能力を体系的に破壊する。
我々は,97件のエージェントタスクと1,000件の敵のプロンプトにまたがる無防備なベースラインに対する防御モデルの評価を行った。
その結果,現在の防衛パラダイムは,マルチステップエージェントを基本的に信頼できないようにレンダリングしながら,シングルターンリフェールベンチマークに最適化されていることがわかった。
- 参考スコア(独自算出の注目度): 5.990318568221089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents increasingly rely on external tools (file operations, API calls, database transactions) to autonomously complete complex multi-step tasks. Practitioners deploy defense-trained models to protect against prompt injection attacks that manipulate agent behavior through malicious observations or retrieved content. We reveal a fundamental \textbf{capability-alignment paradox}: defense training designed to improve safety systematically destroys agent competence while failing to prevent sophisticated attacks. Evaluating defended models against undefended baselines across 97 agent tasks and 1,000 adversarial prompts, we uncover three systematic biases unique to multi-step agents. \textbf{Agent incompetence bias} manifests as immediate tool execution breakdown, with models refusing or generating invalid actions on benign tasks before observing any external content. \textbf{Cascade amplification bias} causes early failures to propagate through retry loops, pushing defended models to timeout on 99\% of tasks compared to 13\% for baselines. \textbf{Trigger bias} leads to paradoxical security degradation where defended models perform worse than undefended baselines while straightforward attacks bypass defenses at high rates. Root cause analysis reveals these biases stem from shortcut learning: models overfit to surface attack patterns rather than semantic threat understanding, evidenced by extreme variance in defense effectiveness across attack categories. Our findings demonstrate that current defense paradigms optimize for single-turn refusal benchmarks while rendering multi-step agents fundamentally unreliable, necessitating new approaches that preserve tool execution competence under adversarial conditions.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクを自律的に完了するために、外部ツール(ファイル操作、API呼び出し、データベーストランザクション)に依存している。
実践者は防御訓練されたモデルをデプロイし、悪意のある観察や検索されたコンテンツを通じてエージェントの動作を操作するインジェクション攻撃から保護する。
安全性を向上させるために設計された防衛訓練は、高度な攻撃を防ぐのに失敗しながら、エージェントの能力を体系的に破壊する。
97のエージェントタスクと1,000の敵のプロンプトにまたがる無防備なベースラインに対する防御モデルの評価を行い、マルチステップエージェント特有の3つの系統的バイアスを明らかにする。
\textbf{Agent incompetence bias} はツール実行の即時ブレークダウンとして現れ、外部コンテンツを見る前に良質なタスクに対する不正なアクションを拒否または生成するモデルである。
textbf{Cascade amplification bias} は、初期失敗をリトライループを通じて伝播させ、防御されたモデルをベースラインの 13\% に対して 99\% のタスクでタイムアウトにプッシュする。
\textbf{Trigger bias} は、防御されたモデルが防御されていないベースラインよりも悪化し、高いレートで防御をバイパスする、パラドックス的なセキュリティ劣化を引き起こす。
モデルはセマンティックな脅威理解ではなく、攻撃パターンを表面化するのに過度に適合しており、攻撃カテゴリ間の防衛効果の極端なばらつきによって証明されている。
本研究は, マルチステップエージェントを基本的に信頼性の低い, 対向条件下でのツール実行能力を維持する新しいアプローチをレンダリングしながら, 現状の防衛パラダイムがシングルターンリフェールベンチマークに最適化されていることを示す。
関連論文リスト
- Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use [6.622648583261088]
エージェント言語モデルは、単一のミスステップが不可逆的な害を引き起こす可能性のあるロングホライゾンアクションを計画、呼び出し、実行しなければなりません。
安全判断を明確化し,学習可能にすることで,エージェントを安全なマルチステップツール使用に整合させるフレームワークであるMOSAICを紹介する。
以上の結果から,MOSAICは有害行為を最大50%減らし,インジェクション攻撃で20%以上減らし,プライバシリークを減らし,良質なタスク性能を保ち,改善することを示した。
論文 参考訳(メタデータ) (2026-03-03T17:59:35Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification [25.817251923574286]
大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。
AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。
我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
論文 参考訳(メタデータ) (2026-02-26T07:59:10Z) - Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。