論文の概要: Active Attacks: Red-teaming LLMs via Adaptive Environments
- arxiv url: http://arxiv.org/abs/2509.21947v1
- Date: Fri, 26 Sep 2025 06:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.239334
- Title: Active Attacks: Red-teaming LLMs via Adaptive Environments
- Title(参考訳): アクティブアタック:アダプティブ環境を経由したLLMのリピート
- Authors: Taeyoung Yun, Pierre-Luc St-Charles, Jinkyoo Park, Yoshua Bengio, Minsu Kim,
- Abstract要約: 大規模言語モデル(LLM)に対する多様な攻撃プロンプトを生成するという課題に対処する。
我々は、犠牲者が進化するにつれて攻撃に適応する新しいRLベースのレッドチームアルゴリズムであるtextitActive Attacksを導入する。
- 参考スコア(独自算出の注目度): 71.55110023234376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenge of generating diverse attack prompts for large language models (LLMs) that elicit harmful behaviors (e.g., insults, sexual content) and are used for safety fine-tuning. Rather than relying on manual prompt engineering, attacker LLMs can be trained with reinforcement learning (RL) to automatically generate such prompts using only a toxicity classifier as a reward. However, capturing a wide range of harmful behaviors is a significant challenge that requires explicit diversity objectives. Existing diversity-seeking RL methods often collapse to limited modes: once high-reward prompts are found, exploration of new regions is discouraged. Inspired by the active learning paradigm that encourages adaptive exploration, we introduce \textit{Active Attacks}, a novel RL-based red-teaming algorithm that adapts its attacks as the victim evolves. By periodically safety fine-tuning the victim LLM with collected attack prompts, rewards in exploited regions diminish, which forces the attacker to seek unexplored vulnerabilities. This process naturally induces an easy-to-hard exploration curriculum, where the attacker progresses beyond easy modes toward increasingly difficult ones. As a result, Active Attacks uncovers a wide range of local attack modes step by step, and their combination achieves wide coverage of the multi-mode distribution. Active Attacks, a simple plug-and-play module that seamlessly integrates into existing RL objectives, unexpectedly outperformed prior RL-based methods -- including GFlowNets, PPO, and REINFORCE -- by improving cross-attack success rates against GFlowNets, the previous state-of-the-art, from 0.07% to 31.28% (a relative gain greater than $400\ \times$) with only a 6% increase in computation. Our code is publicly available \href{https://github.com/dbsxodud-11/active_attacks}{here}.
- Abstract(参考訳): 我々は、有害な行動(例えば、侮辱、性的内容)を誘発し、安全性を高めるために使用される、大規模言語モデル(LLM)に対する多様な攻撃プロンプトを生成するという課題に対処する。
手動のプロンプト工学に頼るのではなく、攻撃的LSMは強化学習(RL)を用いて訓練され、毒性分類器のみを報酬として自動生成する。
しかし、幅広い有害な行動を捉えることは、明確な多様性の目標を必要とする重要な課題である。
既存の多様性を追求するRL法は、しばしば制限モードに崩壊する。
適応探索を促進する能動的学習パラダイムに着想を得て,被害者が進化するにつれて攻撃に適応する新しいRLベースのレッドチームアルゴリズムである「textit{Active Attacks}」を導入する。
攻撃プロンプトを収集して被害者のLSMを定期的に微調整することで、悪用された地域の報酬は減少し、攻撃者は未発見の脆弱性を探さざるを得なくなる。
このプロセスは、容易でハードな探索カリキュラムを自然に引き起こし、攻撃者は容易なモードを超えて、ますます難しいものへと進む。
その結果、アクティブアタックは、ステップごとに幅広いローカルアタックモードを明らかにし、それらの組み合わせはマルチモード分布を広範囲にカバーする。
従来の最先端のGFlowNetsに対するクロスアタック成功率を0.07%から31.28%(400\\\times$以上の相対的な増加)に改善することで、GFlowNets、PPO、REINFORCEなど、従来のRLベースのメソッドよりも予想外のパフォーマンス向上を実現した。
当社のコードは公開されており、 https://github.com/dbsxodud-11/active_ attacks}{here} です。
関連論文リスト
- Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs [28.75283403986172]
大規模言語モデル(LLM)は、プロンプトベースの攻撃に対して脆弱であり、有害なコンテンツや機密情報を生成する。
本稿では,5 つの攻撃ベンチマークにおいて,$mathbf14$ のオープンソース LLM に対する効果的なインジェクション攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-20T13:50:43Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Sampling Attacks on Meta Reinforcement Learning: A Minimax Formulation
and Complexity Analysis [20.11993437283895]
本稿では,この種のセキュリティリスクを理解するためのゲーム理論的基盤を提供する。
我々は、サンプリング攻撃モデルを、攻撃者とエージェントの間のスタックルバーグゲームとして定義し、最小限の定式化をもたらす。
我々は,攻撃者の小さな努力が学習性能を著しく低下させる可能性があることを観察した。
論文 参考訳(メタデータ) (2022-07-29T21:29:29Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。