論文の概要: RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search
- arxiv url: http://arxiv.org/abs/2504.15047v1
- Date: Mon, 21 Apr 2025 12:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 15:11:30.338529
- Title: RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search
- Title(参考訳): RainbowPlus:進化的品質・多様性探索による敵のプロンプト生成の促進
- Authors: Quy-Anh Dang, Chris Ngo, Truong-Son Hy,
- Abstract要約: 進化計算に根ざした新しい赤チームフレームワークであるRainbowPlusを提案する。
RainbowPlusは、適応的な品質多様性探索を通じて、敵のプロンプト生成を強化する。
当社のオープンソース実装は安全性の向上を促進し、脆弱性評価のためのスケーラブルなツールを提供しています。
- 参考スコア(独自算出の注目度): 1.515687944002438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit remarkable capabilities but are susceptible to adversarial prompts that exploit vulnerabilities to produce unsafe or biased outputs. Existing red-teaming methods often face scalability challenges, resource-intensive requirements, or limited diversity in attack strategies. We propose RainbowPlus, a novel red-teaming framework rooted in evolutionary computation, enhancing adversarial prompt generation through an adaptive quality-diversity (QD) search that extends classical evolutionary algorithms like MAP-Elites with innovations tailored for language models. By employing a multi-element archive to store diverse high-quality prompts and a comprehensive fitness function to evaluate multiple prompts concurrently, RainbowPlus overcomes the constraints of single-prompt archives and pairwise comparisons in prior QD methods like Rainbow Teaming. Experiments comparing RainbowPlus to QD methods across six benchmark datasets and four open-source LLMs demonstrate superior attack success rate (ASR) and diversity (Diverse-Score $\approx 0.84$), generating up to 100 times more unique prompts (e.g., 10,418 vs. 100 for Ministral-8B-Instruct-2410). Against nine state-of-the-art methods on the HarmBench dataset with twelve LLMs (ten open-source, two closed-source), RainbowPlus achieves an average ASR of 81.1%, surpassing AutoDAN-Turbo by 3.9%, and is 9 times faster (1.45 vs. 13.50 hours). Our open-source implementation fosters further advancements in LLM safety, offering a scalable tool for vulnerability assessment. Code and resources are publicly available at https://github.com/knoveleng/rainbowplus, supporting reproducibility and future research in LLM red-teaming.
- Abstract(参考訳): LLM(Large Language Models)は、優れた能力を示すが、脆弱性を悪用して安全でない出力やバイアスのある出力を生成する敵のプロンプトに影響を受けやすい。
既存のレッドチーム方式は、スケーラビリティの課題やリソース集約的な要件、あるいは攻撃戦略の多様性の制限に直面することが多い。
我々は、MAP-Elitesのような古典的進化的アルゴリズムを言語モデルに適した革新とともに拡張する適応品質多様性(QD)探索により、敵対的即時生成を強化する、進化的計算に根ざした新しい赤チームフレームワークであるRainbowPlusを提案する。
多様な高品質なプロンプトを格納するための多要素アーカイブと、複数のプロンプトを同時に評価するための包括的なフィットネス機能を使用することで、RainbowPlusはシングルプロンプトアーカイブの制約を克服し、Rainbow Teamingのような以前のQDメソッドとペアで比較する。
RainbowPlusを6つのベンチマークデータセットと4つのオープンソースLCMで比較した実験では、より優れた攻撃成功率(ASR)と多様性(Diverse-Score $\approx 0.84$)を示し、最大100倍独自のプロンプトを生成する(Ministral-8B-Instruct-2410では10,418対100)。
HarmBenchデータセットの9つの最先端の手法に対して、RainbowPlusは平均81.1%のASRを達成し、AutoDAN-Turboを3.9%上回り、9倍の高速(1.45対13.50時間)である。
当社のオープンソース実装は、LSMの安全性をさらに向上させ、脆弱性評価のためのスケーラブルなツールを提供しています。
コードとリソースはhttps://github.com/knoveleng/rainbowplusで公開されている。
関連論文リスト
- Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.72503890388866]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。
SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。
近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文 参考訳(メタデータ) (2025-04-01T17:59:30Z) - Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models [23.68266151581951]
Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の実際の精度を高めることが示されている。
既存の手法は、抽出された証拠を効果的に活用する際の限定的な推論能力に悩まされることが多い。
我々は,オープンソースLLMを用いたRAGにおける推論能力の向上を目的とした,新しいフレームワークであるOpen-RAGを紹介する。
論文 参考訳(メタデータ) (2024-10-02T17:37:18Z) - RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique [22.2168585464366]
FerretはRainbow Teamingをベースにした新しいアプローチである。
フェレットは総合攻撃成功率(ASR)を95%に改善し、レインボーチームよりも46%高い。
論文 参考訳(メタデータ) (2024-08-20T09:58:01Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [57.49685172971446]
敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。
提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。
さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
論文 参考訳(メタデータ) (2024-02-26T18:47:27Z) - LLMatic: Neural Architecture Search via Large Language Models and Quality Diversity Optimization [4.951599300340954]
大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。
本稿では、LLMの符号化機能を用いて、ニューラルネットワークを定義するコードに意味のあるバリエーションを導入することを提案する。
本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を融合させることで,ニューラルネットワーク探索(NAS)アルゴリズムであるtextttLLMaticを導入する。
論文 参考訳(メタデータ) (2023-06-01T19:33:21Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。