論文の概要: Genesis: Evolving Attack Strategies for LLM Web Agent Red-Teaming
- arxiv url: http://arxiv.org/abs/2510.18314v1
- Date: Tue, 21 Oct 2025 05:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.93705
- Title: Genesis: Evolving Attack Strategies for LLM Web Agent Red-Teaming
- Title(参考訳): ジェネシス: LLM Web Agent Red-Teamingの攻撃戦略の進化
- Authors: Zheng Zhang, Jiarui He, Yuchen Cai, Deheng Ye, Peilin Zhao, Ruili Feng, Hao Wang,
- Abstract要約: 既存のレッドチーム方式は、主にオフラインでトレーニングされた手作業による攻撃戦略や静的モデルに依存している。
我々は,アタッカー,スコラー,ストラテジストの3つのモジュールからなる新しいエージェントフレームワークであるGenesisを提案する。
我々のフレームワークは、新しい戦略を発見し、既存の攻撃ベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 45.95972813586392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language model (LLM) agents increasingly automate complex web tasks, they boost productivity while simultaneously introducing new security risks. However, relevant studies on web agent attacks remain limited. Existing red-teaming approaches mainly rely on manually crafted attack strategies or static models trained offline. Such methods fail to capture the underlying behavioral patterns of web agents, making it difficult to generalize across diverse environments. In web agent attacks, success requires the continuous discovery and evolution of attack strategies. To this end, we propose Genesis, a novel agentic framework composed of three modules: Attacker, Scorer, and Strategist. The Attacker generates adversarial injections by integrating the genetic algorithm with a hybrid strategy representation. The Scorer evaluates the target web agent's responses to provide feedback. The Strategist dynamically uncovers effective strategies from interaction logs and compiles them into a continuously growing strategy library, which is then re-deployed to enhance the Attacker's effectiveness. Extensive experiments across various web tasks show that our framework discovers novel strategies and consistently outperforms existing attack baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントが複雑なWebタスクを自動化するにつれて、生産性が向上し、同時に新たなセキュリティリスクがもたらされる。
しかし、Webエージェント攻撃に関する関連する研究は依然として限られている。
既存のレッドチーム方式は、主にオフラインでトレーニングされた手作業による攻撃戦略や静的モデルに依存している。
このような手法はWebエージェントの動作パターンを捉えるのに失敗し、様々な環境にまたがる一般化が困難になる。
Webエージェント攻撃では、成功は攻撃戦略の継続的な発見と進化を必要とする。
この目的のために我々は,アタッカー,スコラー,ストラテジストの3つのモジュールからなる新しいエージェントフレームワークであるGenesisを提案する。
アタッカーは、遺伝的アルゴリズムとハイブリッド戦略表現を統合することにより、敵の注射を生成する。
ScorerはターゲットWebエージェントの応答を評価してフィードバックを提供する。
ストラテジストは対話ログから効果的な戦略を動的に発見し、継続的に成長する戦略ライブラリにコンパイルし、アタッカーの有効性を高めるために再デプロイする。
様々なWebタスクにわたる大規模な実験により、我々のフレームワークは新たな戦略を発見し、既存の攻撃ベースラインを一貫して上回ることを示す。
関連論文リスト
- Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks [63.803415430308114]
現在の大規模言語モデルは、マルチターンインタラクション設定における敵攻撃に対して脆弱である。
本研究では,木探索と統合したオンライン強化学習フレームワークであるDialTree-RPOを提案する。
提案手法は,従来の最先端手法と比較して,10のターゲットモデルに対して25.9%以上のASRを実現している。
論文 参考訳(メタデータ) (2025-10-02T17:57:05Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - Co-Evolutionary Defence of Active Directory Attack Graphs via GNN-Approximated Dynamic Programming [9.704696173031714]
我々は,Active Directoryにおける攻撃と防御の相互作用を,アダプティブアタックとプロアクティブディフェンダーの間のStackelbergゲームとしてモデル化する。
本稿では,GNNDP(Graph Neural Network Approximated Dynamic Programming)を併用して攻撃戦略をモデル化する,共進化型防衛フレームワークを提案する。
本フレームワークは,攻撃者や防御者の政策を洗練し,一般化を改善し,早期収束を防ぐ。
論文 参考訳(メタデータ) (2025-05-16T21:37:50Z) - Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Robust Federated Learning with Attack-Adaptive Aggregation [45.60981228410952]
フェデレート学習は、モデル中毒やバックドア攻撃など、様々な攻撃に対して脆弱である。
本研究では,ロバスト学習のためのアタック・アダプティブ・アグリゲーション戦略を提案する。
論文 参考訳(メタデータ) (2021-02-10T04:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。