論文の概要: Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique
- arxiv url: http://arxiv.org/abs/2408.10701v1
- Date: Tue, 20 Aug 2024 09:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:14:58.101798
- Title: Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique
- Title(参考訳): Ferret: Reward-Based Scoring技術によるより高速で効果的な自動化されたレッドチーム
- Authors: Tej Deep Pala, Vernon Y. H. Toh, Rishabh Bhardwaj, Soujanya Poria,
- Abstract要約: FerretはRainbow Teamingをベースにした新しいアプローチである。
フェレットは総合攻撃成功率(ASR)を95%に改善し、レインボーチームよりも46%高い。
- 参考スコア(独自算出の注目度): 22.2168585464366
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In today's era, where large language models (LLMs) are integrated into numerous real-world applications, ensuring their safety and robustness is crucial for responsible AI usage. Automated red-teaming methods play a key role in this process by generating adversarial attacks to identify and mitigate potential vulnerabilities in these models. However, existing methods often struggle with slow performance, limited categorical diversity, and high resource demands. While Rainbow Teaming, a recent approach, addresses the diversity challenge by framing adversarial prompt generation as a quality-diversity search, it remains slow and requires a large fine-tuned mutator for optimal performance. To overcome these limitations, we propose Ferret, a novel approach that builds upon Rainbow Teaming by generating multiple adversarial prompt mutations per iteration and using a scoring function to rank and select the most effective adversarial prompt. We explore various scoring functions, including reward models, Llama Guard, and LLM-as-a-judge, to rank adversarial mutations based on their potential harm to improve the efficiency of the search for harmful mutations. Our results demonstrate that Ferret, utilizing a reward model as a scoring function, improves the overall attack success rate (ASR) to 95%, which is 46% higher than Rainbow Teaming. Additionally, Ferret reduces the time needed to achieve a 90% ASR by 15.2% compared to the baseline and generates adversarial prompts that are transferable i.e. effective on other LLMs of larger size. Our codes are available at https://github.com/declare-lab/ferret.
- Abstract(参考訳): 今日の時代には、大規模言語モデル(LLM)が多くの現実世界のアプリケーションに統合され、その安全性と堅牢性を保証することが、AI使用の責任を負う上で不可欠である。
このプロセスでは、これらのモデルにおける潜在的な脆弱性を特定し軽減するために、敵攻撃を発生させることによって、自動化されたリピート方式が重要な役割を果たす。
しかし、既存の手法はパフォーマンスの遅さ、カテゴリの多様性の制限、高いリソース要求に悩まされることが多い。
最近のアプローチであるレインボウ・ボウティング(Rainbow Teaming)は、敵の即時生成を品質多様性探索としてフレーミングすることで多様性の課題に対処するが、それは依然として遅く、最適な性能を得るためには大きな微調整のミュータを必要とする。
このような制約を克服するため,フェレットはレインボー・チーム(Rainbow Teaming)を基盤として,複数回に一度に複数の逆の突然変異を発生させ,スコアリング関数を用いて最も効果的な逆のプロンプトをランク付けし,選択することで,新しいアプローチを提案する。
報奨モデルやLlama Guard, LLM-as-a-judgeなどの各種スコアリング機能を用いて, 有害な突然変異の探索効率を向上させるために, その潜在的な害に基づいて, 敵の突然変異をランク付けする。
その結果,フェレットは報酬モデルを評価関数として利用し,総合攻撃成功率(ASR)を95%に改善し,レインボーチームよりも46%高い結果を得た。
さらに、フェレットはベースラインに比べて90%のASRを達成するのに必要な時間を15.2%削減し、転送可能な逆のプロンプトを生成する。
私たちのコードはhttps://github.com/declare-lab/ferret.comで公開されています。
関連論文リスト
- MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。
トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。
提案手法は,テキスト要約,対話生成,質問応答,プログラム合成など,様々なモデルサイズやタスクにまたがる広範な実験を通じて検証される。
論文 参考訳(メタデータ) (2024-10-03T17:55:13Z) - Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z) - DiveR-CT: Diversity-enhanced Red Teaming with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [57.49685172971446]
敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。
提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。
さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
論文 参考訳(メタデータ) (2024-02-26T18:47:27Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Towards Optimal Randomized Strategies in Adversarial Example Game [13.287949447721115]
敵対的なサンプル攻撃に対するディープニューラルネットワークモデルの脆弱性は、多くの人工知能アプリケーションにおいて実践的な課題である。
確率分布空間上の新しい無限次元連続時間フローを用いて問題をモデル化するFRATと呼ばれるアルゴリズムを提案する。
我々は、FRATの連続時間制限がディフェンダーとアタッカーによって形成されたゼロサムゲームにおいて混合ナッシュ平衡に収束することを証明する。
論文 参考訳(メタデータ) (2023-06-29T07:29:23Z) - MUTEN: Boosting Gradient-Based Adversarial Attacks via Mutant-Based
Ensembles [16.424441015545252]
MUTENは、勾配マスキングモデルに対するよく知られた攻撃の成功率を改善するための低コストな手法である。
MUTENは4回の攻撃の成功率を最大0.45まで向上させることができる。
論文 参考訳(メタデータ) (2021-09-27T07:15:01Z) - Transferable, Controllable, and Inconspicuous Adversarial Attacks on
Person Re-identification With Deep Mis-Ranking [83.48804199140758]
システム出力のランキングを乱す学習とミスランクの定式化を提案する。
また,新たなマルチステージネットワークアーキテクチャを開発することで,バックボックス攻撃を行う。
そこで本手法では, 異なるマルチショットサンプリングにより, 悪意のある画素数を制御することができる。
論文 参考訳(メタデータ) (2020-04-08T18:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。