論文の概要: Evolving Diverse Red-team Language Models in Multi-round Multi-agent Games
- arxiv url: http://arxiv.org/abs/2310.00322v5
- Date: Sun, 28 Jul 2024 09:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 00:46:55.580994
- Title: Evolving Diverse Red-team Language Models in Multi-round Multi-agent Games
- Title(参考訳): マルチラウンドマルチエージェントゲームにおける多言語多言語言語モデルの進化
- Authors: Chengdong Ma, Ziran Yang, Hai Ci, Jun Gao, Minquan Gao, Xuehai Pan, Yaodong Yang,
- Abstract要約: Redチームは、Large Language Model(LLM)を攻撃して脆弱性を特定できる。
現在の取り組みは、単一ラウンドのプロンプト設計と、固定ブルーチームに対する一方的なレッドチームの最適化に大きく依存しています。
ここでは、レッドチームとブルーチーム間のマルチラウンド攻撃的および防御的相互作用を分析するために、動的レッドチームゲーム(RTG)を紹介します。
- 参考スコア(独自算出の注目度): 11.873513881458747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary challenge in deploying Large Language Model (LLM) is ensuring its harmlessness. Red team can identify vulnerabilities by attacking LLM to attain safety. However, current efforts heavily rely on single-round prompt designs and unilateral red team optimizations against fixed blue teams. These static approaches lead to significant reductions in generation diversity, known as the mode collapse, which makes it difficult to discover the potential risks in the increasingly complex human-LLM interactions. Here we introduce dynamic Red Team Game (RTG) to comprehensively analyze the multi-round offensive and defensive interactions between red team and blue team. Furthermore, we develop a Gamified Red Team Solver (GRTS) with diversity measures to mitigate mode collapse and theoretically guarantee the convergence of approximate Nash equilibrium which results in better strategies for both teams. Empirical results demonstrate that GRTS explore diverse and implicit attacks to adaptively exploit various LLMs, surpassing the constraints of specific modes. Insightfully, the geometrical structure we unveil of the red team task aligns with the spinning top hypothesis, confirming the necessity of constructing a diverse LLM population as a promising proxy for heterogeneous human expert red-teamers. This paves the way for scalable toxicity detection and safe alignment for LLMs.
- Abstract(参考訳): LLM(Large Language Model)のデプロイにおける最大の課題は、その無害性を保証することだ。
Redチームは、LLMを攻撃して安全性を確保することで脆弱性を特定することができる。
しかしながら、現在の取り組みは単一ラウンドのプロンプト設計と、固定ブルーチームに対する一方的なレッドチームの最適化に大きく依存しています。
これらの静的アプローチは、モード崩壊として知られる世代多様性を著しく低下させ、複雑化する人間-LLM相互作用の潜在的なリスクを発見するのが困難になる。
ここでは、レッドチームとブルーチーム間のマルチラウンド攻撃的および防御的相互作用を包括的に分析する動的レッドチームゲーム(RTG)を紹介します。
さらに,モード崩壊を緩和し,両チームにとってより良い戦略をもたらす近似的なナッシュ均衡の収束を理論的に保証するための多様性対策を備えたGamified Red Team Solver (GRTS) を開発した。
実験の結果、GRTSは様々なLSMを適応的に活用し、特定のモードの制約を超える多様な暗黙の攻撃を探索している。
赤チームのタスクの幾何学的構造は、回転するトップ仮説と一致し、異質な人間専門家のレッドチームのための有望なプロキシとして、多様なLLM人口を構築する必要性を確認します。
これにより、LSMのスケーラブルな毒性検出と安全なアライメントを実現することができる。
関連論文リスト
- RED QUEEN: Safeguarding Large Language Models against Concealed
Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T01:24:17Z) - Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。
提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T09:44:48Z) - Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts [25.661444231400772]
大規模視覚言語モデル(VLM)は、大規模言語モデル(LLM)の知覚能力を拡張し、拡張する
これらの進歩は、特に有害なコンテンツの生成に関して、重要なセキュリティと倫理上の懸念を引き起こす。
VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。
論文 参考訳(メタデータ) (2024-07-21T04:37:11Z) - DiveR-CT: Diversity-enhanced Red Teaming with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Against The Achilles' Heel: A Survey on Red Teaming for Generative Models [60.21722603260243]
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。
我々は、様々な自動レッドチーム化アプローチを統合するために、"searcher"フレームワークを開発した。
論文 参考訳(メタデータ) (2024-03-31T09:50:39Z) - Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [57.49685172971446]
敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。
提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。
さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
論文 参考訳(メタデータ) (2024-02-26T18:47:27Z) - Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略である
レッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。
我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:19:25Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Cooperation or Competition: Avoiding Player Domination for Multi-Target
Robustness via Adaptive Budgets [76.20705291443208]
我々は、敵攻撃を、異なるプレイヤーがパラメータ更新の合同方向で合意に達するために交渉する交渉ゲームであると見なしている。
我々は、プレイヤーの優位性を避けるために、異なる敵の予算を調整する新しいフレームワークを設計する。
標準ベンチマークの実験では、提案したフレームワークを既存のアプローチに適用することで、マルチターゲットロバスト性が大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-06-27T14:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。