論文の概要: A Dynamic Stackelberg Game Framework for Agentic AI Defense Against LLM Jailbreaking
- arxiv url: http://arxiv.org/abs/2507.08207v1
- Date: Thu, 10 Jul 2025 22:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.195667
- Title: A Dynamic Stackelberg Game Framework for Agentic AI Defense Against LLM Jailbreaking
- Title(参考訳): LLMジェイルブレイクに対するエージェントAI防御のための動的スタックルバーグゲームフレームワーク
- Authors: Zhengye Han, Quanyan Zhu,
- Abstract要約: 本稿では,大規模言語モデルジェイルブレイクの文脈において,攻撃者とディフェンダー間の相互作用をモデル化するためのStackelbergゲームフレームワークを提案する。
本稿では,RRT(Rapidly-Exploring Random Trees)を用いて,敵の探索と防御戦略を統合したエージェントAIソリューション"Purple Agent"を提案する。
- 参考スコア(独自算出の注目度): 13.343937277604892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in critical applications, the challenge of jailbreaking, where adversaries manipulate the models to bypass safety mechanisms, has become a significant concern. This paper presents a dynamic Stackelberg game framework to model the interactions between attackers and defenders in the context of LLM jailbreaking. The framework treats the prompt-response dynamics as a sequential extensive-form game, where the defender, as the leader, commits to a strategy while anticipating the attacker's optimal responses. We propose a novel agentic AI solution, the "Purple Agent," which integrates adversarial exploration and defensive strategies using Rapidly-exploring Random Trees (RRT). The Purple Agent actively simulates potential attack trajectories and intervenes proactively to prevent harmful outputs. This approach offers a principled method for analyzing adversarial dynamics and provides a foundation for mitigating the risk of jailbreaking.
- Abstract(参考訳): 大規模言語モデル(LLM)が重要なアプリケーションにますますデプロイされる中、敵が安全メカニズムをバイパスするためにモデルを操作しているジェイルブレイクの課題が重要になっている。
本稿では,LLMジェイルブレイクの文脈における攻撃者とディフェンダー間の相互作用をモデル化するための動的Stackelbergゲームフレームワークを提案する。
このフレームワークは、プロンプト・レスポンスのダイナミクスを、攻撃者の最適な応答を予測しながら、ディフェンダーをリーダーとして戦略にコミットするシーケンシャルなワイドフォームゲームとして扱う。
本稿では,RRT(Rapidly-Exploring Random Trees)を用いて,敵の探索と防御戦略を統合したエージェントAIソリューション"Purple Agent"を提案する。
パープルエージェントは、潜在的攻撃軌跡を積極的にシミュレートし、有害な出力を防ぐために積極的に介入する。
このアプローチは、敵の力学を分析するための原則化された方法を提供し、ジェイルブレイクのリスクを軽減するための基盤を提供する。
関連論文リスト
- Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [55.28518567702213]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defending Jailbreak Prompts via In-Context Adversarial Game [34.83853184278604]
In-Context Adversarial Game(ICAG)を導入し、細調整を必要とせずにジェイルブレイクを防御する。
静的データセットに依存する従来の方法とは異なり、ICAGは防御エージェントと攻撃エージェントの両方を強化するために反復的なプロセスを採用している。
ICAGにより保護されたLSMがジェイルブレイクの成功率を大幅に低下させるICAGの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-20T17:04:06Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。