論文の概要: When Alignment Isn't Enough: Response-Path Attacks on LLM Agents
- arxiv url: http://arxiv.org/abs/2605.02187v1
- Date: Mon, 04 May 2026 03:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.124594
- Title: When Alignment Isn't Enough: Response-Path Attacks on LLM Agents
- Title(参考訳): 調整が不十分な場合: LLMエージェントに対するレスポンスパスアタック
- Authors: Mingyu Luo, Zihan Zhang, Zesen Liu, Yuchong Xie, Zhixiang Zhang, Dung Hiu Hilton Yeung, Wai Ip Lai, Ping Chen, Ming Wen, Dongdong She,
- Abstract要約: 悪意のあるリレーは、エージェントの実行前ではなく、生成後に一致したLCM応答を変更することができる。
我々は、この調整後の改ざん脅威を形式化し、エンドツーエンドの整合性なしでは、リレーが下流のメッセージを観察し、抑制し、置き換えることができることを示す。
我々は、この脅威を、複数ラウンドの戦略的書き換え、最小限のセキュリティクリティカルな編集、ステルス復元を行うリレー・タンパリング・アタック(RTA)としてインスタンス化する。
- 参考スコア(独自算出の注目度): 18.694498595936718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bring-Your-Own-Key (BYOK) agent architectures let users route LLM traffic through third-party relays, creating a critical integrity gap: a malicious relay can modify an aligned LLM response after generation but before agent execution. We formalize this post-alignment tampering threat and show that, without end-to-end integrity, the relay can observe, suppress, or replace downstream messages, making even perfectly aligned LLMs ineffective against such attacks. We instantiate this threat as the Relay Tampering Attack (RTA), which performs multi-round strategic rewriting, minimal security-critical edits, and stealth restoration by resubmitting tampered outputs to the upstream LLM. Across AgentDojo and ASB with six LLMs, RTA achieves up to 99.1% attack success, outperforming prompt-injection baselines with modest overhead. Case studies on OpenClaw and Claude Code demonstrate real-world feasibility, and evaluations of four defenses show that none fully prevent RTA. Finally, we propose a time-based detection defense that mitigates RTA while preserving agent utility.
- Abstract(参考訳): bring-Your-Own-Key (BYOK)エージェントアーキテクチャでは、サードパーティのリレーを介してLLMトラフィックをルーティングすることが可能になる。
我々は、この調整後の改ざん脅威を形式化し、エンド・ツー・エンドの整合性がないと、リレーは下流のメッセージを観察し、抑制し、置き換えることができ、そのような攻撃に対して完全に整合したLLMでさえ効果がないことを示す。
我々は、この脅威を、マルチラウンドの戦略的書き換え、最小限のセキュリティクリティカルな編集、ステルス復元を行うRTA(Relay Tampering Attack)として、上流のLSMに改ざんされた出力を再送信することで解決する。
AgentDojo と ASB の6つの LLM で RTA は 99.1% の攻撃成功を達成している。
OpenClaw と Claude Code のケーススタディは、実世界の実現可能性を示し、4つのディフェンスの評価は、RTA を完全には防ぐことができないことを示している。
最後に,エージェントの効用を保ちながらRTAを緩和する時間に基づく検出防御を提案する。
関連論文リスト
- When Safety Becomes a Vulnerability: Exploiting LLM Alignment Homogeneity for Transferable Blocking in RAG [16.528679832019854]
TabooRAGは、厳格なブラックボックス設定の下で動作する、転送可能なブロッキング攻撃フレームワークである。
我々は,TabooRAGが安定なクロスモデル転送性と最先端のブロッキング成功率を実現し,GPT-5.2で最大96%に達することを示す。
論文 参考訳(メタデータ) (2026-03-04T10:27:09Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM [23.16217797677075]
我々は、アライメントを破る可能性のある攻撃に対して、ロバストにアライメントされたLLM(RA-LLM)を導入する。
RA-LLMは、最先端の敵のプロンプトと、手作りのジェイルブレイクプロンプトの両方を防御できる。
論文 参考訳(メタデータ) (2023-09-18T02:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。