論文の概要: DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints
- arxiv url: http://arxiv.org/abs/2405.19026v2
- Date: Fri, 20 Dec 2024 07:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:40.555199
- Title: DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints
- Title(参考訳): DiveR-CT:Relaxing Constraintsを備えた多言語対応大規模言語モデルアシスタント
- Authors: Andrew Zhao, Quentin Xu, Matthieu Lin, Shenzhi Wang, Yong-jin Liu, Zilong Zheng, Gao Huang,
- Abstract要約: DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
- 参考スコア(独自算出の注目度): 68.82294911302579
- License:
- Abstract: Recent advances in large language model assistants have made them indispensable, raising significant concerns over managing their safety. Automated red teaming offers a promising alternative to the labor-intensive and error-prone manual probing for vulnerabilities, providing more consistent and scalable safety evaluations. However, existing approaches often compromise diversity by focusing on maximizing attack success rate. Additionally, methods that decrease the cosine similarity from historical embeddings with semantic diversity rewards lead to novelty stagnation as history grows. To address these issues, we introduce DiveR-CT, which relaxes conventional constraints on the objective and semantic reward, granting greater freedom for the policy to enhance diversity. Our experiments demonstrate DiveR-CT's marked superiority over baselines by 1) generating data that perform better in various diversity metrics across different attack success rate levels, 2) better-enhancing resiliency in blue team models through safety tuning based on collected data, 3) allowing dynamic control of objective weights for reliable and controllable attack success rates, and 4) reducing susceptibility to reward overoptimization. Overall, our method provides an effective and efficient approach to LLM red teaming, accelerating real-world deployment.
- Abstract(参考訳): 大規模言語モデルアシスタントの最近の進歩は、それらが不可欠であり、その安全性管理に関する重要な懸念を提起している。
自動化されたレッドチームリングは、労働集約的でエラーを起こしやすい手動による脆弱性の調査に代わる有望な代替手段であり、より一貫性があり、スケーラブルな安全性評価を提供する。
しかし、既存のアプローチは、攻撃の成功率の最大化に集中することで、多様性を損なうことが多い。
さらに、コサインの類似性を歴史的埋め込みから意味多様性の報酬に還元する手法は、歴史が成長するにつれて、新規性の停滞につながる。
これらの課題に対処するため,従来の客観的・意味的な報酬に対する制約を緩和し,多様性を高める政策の自由度を高めるDiveR-CTを導入する。
我々の実験は、DiveR-CTがベースラインよりも顕著に優れていることを示した。
1)異なる攻撃成功率の様々な多様性指標において、より良いデータを生成する。
2) 収集データに基づく安全チューニングによるブルーチームモデルのレジリエンス向上。
3)信頼性・制御可能な攻撃成功率に対する目標重量の動的制御を可能とし、
4)報酬過小評価に対する感受性の低下。
全体として,本手法はLLMレッドチームへの効果的かつ効率的なアプローチを提供し,実世界の展開を加速させる。
関連論文リスト
- Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。
提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T09:44:48Z) - SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。
これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。
本稿では,モデル自体が生成したデータを活用することで,セキュリティを向上させるための最適化フレームワークであるmathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)について紹介する。
論文 参考訳(メタデータ) (2024-08-05T16:55:06Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Ensemble Adversarial Defense via Integration of Multiple Dispersed Low Curvature Models [7.8245455684263545]
本研究では,攻撃伝達性を低減し,アンサンブルの多様性を高めることを目的とする。
損失曲率を表す2階勾配を, 対向的強靭性の重要な要因として同定する。
本稿では,複数変数の低曲率ネットワークモデルをトレーニングするための新しい正規化器を提案する。
論文 参考訳(メタデータ) (2024-03-25T03:44:36Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Making Substitute Models More Bayesian Can Enhance Transferability of
Adversarial Examples [89.85593878754571]
ディープニューラルネットワークにおける敵の例の転送可能性は多くのブラックボックス攻撃の欠如である。
我々は、望ましい転送可能性を達成するためにベイズモデルを攻撃することを提唱する。
我々の手法は近年の最先端を大きなマージンで上回る。
論文 参考訳(メタデータ) (2023-02-10T07:08:13Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - DVERGE: Diversifying Vulnerabilities for Enhanced Robust Generation of
Ensembles [20.46399318111058]
敵攻撃は、小さな摂動でCNNモデルを誤解させる可能性があるため、同じデータセットでトレーニングされた異なるモデル間で効果的に転送することができる。
非破壊的特徴を蒸留することにより,各サブモデルの逆脆弱性を分離するDVERGEを提案する。
新たな多様性基準とトレーニング手順により、DVERGEは転送攻撃に対して高い堅牢性を達成することができる。
論文 参考訳(メタデータ) (2020-09-30T14:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。