論文の概要: Stateful Agent Backdoor
- arxiv url: http://arxiv.org/abs/2605.06158v1
- Date: Thu, 07 May 2026 12:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.789745
- Title: Stateful Agent Backdoor
- Title(参考訳): ステートフルエージェントバックドア
- Authors: Zhengchunmin Dai, Jiaxiong Tang, Liantao Wu, Peng Sun, Honglong Chen,
- Abstract要約: 許可隔離下で複数のセッションにまたがって攻撃ライフサイクルを拡張するステートフルエージェントバックドアを提案する。
攻撃は永続的なコンポーネントを通じて状態を維持し、ワンタイムトリガーインジェクションの後にセッション間で自律的でインクリメンタルな実行を可能にする。
- 参考スコア(独自算出の注目度): 12.40971266656093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing backdoor attacks on Large Language Model-based agents remain stateless, executing fixed behaviors confined to a single session. We propose a stateful agent backdoor that extends the attack lifecycle across multiple sessions under permission isolation. The attack maintains state through persistent components, enabling autonomous, incremental execution across sessions following a one-time trigger injection. Formally, we model the attack as a Mealy machine and derive a decomposition framework that enables independent per-transition data construction. We instantiate this framework with a primary attack and two extensibility variants. The primary instantiation achieves an attack success rate of 80\%--95\% across four models, with per-transition analysis demonstrating the effectiveness of the decomposition. Extensibility variants with alternative topologies and persistent components demonstrate consistent effectiveness. Code and data are available at https://anonymous.4open.science/r/stateful_agent_backdoor-E89F.
- Abstract(参考訳): 既存のLarge Language Modelベースのエージェントに対するバックドア攻撃はステートレスであり、単一のセッションに限定された固定された振る舞いを実行する。
許可隔離下で複数のセッションにまたがってアタックライフサイクルを拡張するステートフルエージェントバックドアを提案する。
攻撃は永続的なコンポーネントを通じて状態を維持し、ワンタイムトリガーインジェクションの後にセッション間で自律的でインクリメンタルな実行を可能にする。
形式的には、攻撃をMealyマシンとしてモデル化し、独立したトランジション単位のデータ構築を可能にする分解フレームワークを導出する。
このフレームワークを、プライマリアタックと2つの拡張性バリアントでインスタンス化する。
一次インスタンス化は4つのモデルに対して80\%--95\%の攻撃成功率を達成する。
代替トポロジや永続的なコンポーネントによる拡張性変異は、一貫した有効性を示している。
コードとデータはhttps://anonymous.4open.science/r/stateful_agent_backdoor-E89Fで公開されている。
関連論文リスト
- Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - AutoBackdoor: Automating Backdoor Attacks via LLM Agents [35.216857373810875]
バックドア攻撃は、大規模言語モデル(LLM)の安全なデプロイに深刻な脅威をもたらす
本研究では,バックドアインジェクションを自動化するための一般的なフレームワークであるtextscAutoBackdoorを紹介する。
従来のアプローチとは異なり、AutoBackdoorは強力な言語モデルエージェントを使用して、セマンティックコヒーレントでコンテキスト対応のトリガーフレーズを生成する。
論文 参考訳(メタデータ) (2025-11-20T03:58:54Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Invisible Textual Backdoor Attacks based on Dual-Trigger [1.586075842611725]
本稿では,デュアルトリガーバックドア攻撃法を提案する。
具体的には、シンタックスとムードという2つの異なる属性を2つの異なるトリガとして使用します。
バックドア攻撃法は、全く異なるトリガー条件を同時に持てる二重地雷に似ています。
論文 参考訳(メタデータ) (2024-12-23T12:56:30Z) - Shortcuts Everywhere and Nowhere: Exploring Multi-Trigger Backdoor Attacks [63.89012304595422]
ディープニューラルネットワーク(DNN)の事前トレーニングとデプロイに対して、バックドア攻撃は重大な脅威となっている。
本研究では,マルチトリガーバックドア攻撃(MTBA)の概念について検討し,複数の敵が異なる種類のトリガーを利用して同一のデータセットを毒する。
論文 参考訳(メタデータ) (2024-01-27T04:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。