論文の概要: Evolving Diverse Red-team Language Models in Multi-round Multi-agent Games
- arxiv url: http://arxiv.org/abs/2310.00322v5
- Date: Sun, 28 Jul 2024 09:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 00:46:55.580994
- Title: Evolving Diverse Red-team Language Models in Multi-round Multi-agent Games
- Title(参考訳): マルチラウンドマルチエージェントゲームにおける多言語多言語言語モデルの進化
- Authors: Chengdong Ma, Ziran Yang, Hai Ci, Jun Gao, Minquan Gao, Xuehai Pan, Yaodong Yang,
- Abstract要約: Redチームは、Large Language Model(LLM)を攻撃して脆弱性を特定できる。
現在の取り組みは、単一ラウンドのプロンプト設計と、固定ブルーチームに対する一方的なレッドチームの最適化に大きく依存しています。
ここでは、レッドチームとブルーチーム間のマルチラウンド攻撃的および防御的相互作用を分析するために、動的レッドチームゲーム(RTG)を紹介します。
- 参考スコア(独自算出の注目度): 11.873513881458747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary challenge in deploying Large Language Model (LLM) is ensuring its harmlessness. Red team can identify vulnerabilities by attacking LLM to attain safety. However, current efforts heavily rely on single-round prompt designs and unilateral red team optimizations against fixed blue teams. These static approaches lead to significant reductions in generation diversity, known as the mode collapse, which makes it difficult to discover the potential risks in the increasingly complex human-LLM interactions. Here we introduce dynamic Red Team Game (RTG) to comprehensively analyze the multi-round offensive and defensive interactions between red team and blue team. Furthermore, we develop a Gamified Red Team Solver (GRTS) with diversity measures to mitigate mode collapse and theoretically guarantee the convergence of approximate Nash equilibrium which results in better strategies for both teams. Empirical results demonstrate that GRTS explore diverse and implicit attacks to adaptively exploit various LLMs, surpassing the constraints of specific modes. Insightfully, the geometrical structure we unveil of the red team task aligns with the spinning top hypothesis, confirming the necessity of constructing a diverse LLM population as a promising proxy for heterogeneous human expert red-teamers. This paves the way for scalable toxicity detection and safe alignment for LLMs.
- Abstract(参考訳): LLM(Large Language Model)のデプロイにおける最大の課題は、その無害性を保証することだ。
Redチームは、LLMを攻撃して安全性を確保することで脆弱性を特定することができる。
しかしながら、現在の取り組みは単一ラウンドのプロンプト設計と、固定ブルーチームに対する一方的なレッドチームの最適化に大きく依存しています。
これらの静的アプローチは、モード崩壊として知られる世代多様性を著しく低下させ、複雑化する人間-LLM相互作用の潜在的なリスクを発見するのが困難になる。
ここでは、レッドチームとブルーチーム間のマルチラウンド攻撃的および防御的相互作用を包括的に分析する動的レッドチームゲーム(RTG)を紹介します。
さらに,モード崩壊を緩和し,両チームにとってより良い戦略をもたらす近似的なナッシュ均衡の収束を理論的に保証するための多様性対策を備えたGamified Red Team Solver (GRTS) を開発した。
実験の結果、GRTSは様々なLSMを適応的に活用し、特定のモードの制約を超える多様な暗黙の攻撃を探索している。
赤チームのタスクの幾何学的構造は、回転するトップ仮説と一致し、異質な人間専門家のレッドチームのための有望なプロキシとして、多様なLLM人口を構築する必要性を確認します。
これにより、LSMのスケーラブルな毒性検出と安全なアライメントを実現することができる。
関連論文リスト
- Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) [17.670925982912312]
Red-teamingは、大規模言語モデル(LLM)の脆弱性を特定するテクニックである。
本稿では,LLM に対するリピート攻撃に関する詳細な脅威モデルを提案し,知識の体系化(SoK)を提供する。
論文 参考訳(メタデータ) (2024-07-20T17:05:04Z) - DART: Deep Adversarial Automated Red Teaming for LLM Safety [38.381963959184944]
大規模言語モデル(LLM)における安全性の脆弱性を検出するために,DART(Deep Adversarial Automated Red Teaming)フレームワークを提案する。
実験により、DARTは目標LLMの安全性を著しく低下させることが示された。
人間によるArthhropic Harmlessデータセットの評価では、DARTは違反リスクを53.4%削減している。
論文 参考訳(メタデータ) (2024-07-04T12:14:27Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming [37.32997502058661]
本稿では,数個のトークンで入力プロンプトを再構築するプラグイン・アンド・プレイプレフィックスモジュールとしてtextbfsentinel モデルを提案する。
センチネルモデルは、微調整された大きなターゲットモデルに対するテキストパラメータ非効率性とテキスト制限モデルアクセシビリティを自然に克服する。
テキスト・ツー・テキスト・ツー・イメージを用いた実験により,有害な出力を緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-05-21T08:57:44Z) - Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略である
レッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。
我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:19:25Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。