論文の概要: Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization
- arxiv url: http://arxiv.org/abs/2511.19218v2
- Date: Wed, 26 Nov 2025 15:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.407787
- Title: Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization
- Title(参考訳): 木群デュアルアウェアサーチと最適化によるLLM安全アライメントの逆アタック-ディフェンス共進化
- Authors: Xurui Li, Kaisong Song, Rui Zhu, Pin-Yu Chen, Haixu Tang,
- Abstract要約: 大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 51.12422886183246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have developed rapidly in web services, delivering unprecedented capabilities while amplifying societal risks. Existing works tend to focus on either isolated jailbreak attacks or static defenses, neglecting the dynamic interplay between evolving threats and safeguards in real-world web contexts. To mitigate these challenges, we propose ACE-Safety (Adversarial Co-Evolution for LLM Safety), a novel framework that jointly optimize attack and defense models by seamlessly integrating two key innovative procedures: (1) Group-aware Strategy-guided Monte Carlo Tree Search (GS-MCTS), which efficiently explores jailbreak strategies to uncover vulnerabilities and generate diverse adversarial samples; (2) Adversarial Curriculum Tree-aware Group Policy Optimization (AC-TGPO), which jointly trains attack and defense LLMs with challenging samples via curriculum reinforcement learning, enabling robust mutual improvement. Evaluations across multiple benchmarks demonstrate that our method outperforms existing attack and defense approaches, and provides a feasible pathway for developing LLMs that can sustainably support responsible AI ecosystems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
これらの課題を緩和するために,(1)グループ認識戦略誘導モンテカルロ木探索(GS-MCTS)をシームレスに統合し,攻撃モデルと防御モデルを協調的に最適化する新しいフレームワークであるACE-Safetyを提案する。
複数のベンチマークで評価したところ、我々の手法は既存の攻撃と防御のアプローチよりも優れており、責任あるAIエコシステムを持続的にサポートできるLLMを開発するための実用的な経路を提供する。
関連論文リスト
- L2M-AID: Autonomous Cyber-Physical Defense by Fusing Semantic Reasoning of Large Language Models with Multi-Agent Reinforcement Learning (Preprint) [16.291320202524187]
L2M-AIDは多エージェント強化学習を用いた自律型産業防衛のための新しいフレームワークである。
大規模言語モデル(LLM)によって駆動される協調エージェントのチームを編成し、適応的でレジリエンスなセキュリティを実現する。
その結果,L2M-AIDは従来のIDS,ディープラーニング異常検出器,単一エージェントRLベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-10-08T17:46:39Z) - DOPA: Stealthy and Generalizable Backdoor Attacks from a Single Client under Challenging Federated Constraints [2.139012072214621]
フェデレーテッド・ラーニング(FL)は、プライバシー保護のための協調トレーニングにますます採用されているが、その分散した性質は、バックドア攻撃の影響を受けやすい。
しかし、既存の攻撃方法は、しばしば理想化された仮定に依存し、現実の制約の下で有効に保たない。
異種ローカルトレーニングのダイナミクスをシミュレートし,多種多様な最適化トラジェクトリ間のコンセンサスを求める新しいフレームワークであるDOPAを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:39:12Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。
本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。
そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文 参考訳(メタデータ) (2025-07-02T03:09:20Z) - An LLM-based Self-Evolving Security Framework for 6G Space-Air-Ground Integrated Networks [49.605335601285496]
6Gスペースエアグラウンド統合ネットワーク(SAGIN)は、様々なモバイルアプリケーションに対してユビキタスなカバレッジを提供する。
大規模言語モデル(LLM)に基づくSAGINの新しいセキュリティフレームワークを提案する。
当社のフレームワークは,さまざまな未知の攻撃に対して堅牢な,高精度なセキュリティ戦略を実現しています。
論文 参考訳(メタデータ) (2025-05-06T04:14:13Z) - Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-01-03T14:30:14Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。