論文の概要: Adaptive Instruction Composition for Automated LLM Red-Teaming
- arxiv url: http://arxiv.org/abs/2604.21159v1
- Date: Wed, 22 Apr 2026 23:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.218383
- Title: Adaptive Instruction Composition for Automated LLM Red-Teaming
- Title(参考訳): 自動LLMリレーティングのための適応的インストラクション構成
- Authors: Jesse Zymet, Andy Luo, Swapnil Shinde, Sahil Wadhwa, Emily Chen,
- Abstract要約: 本稿では、クラウドソースされたテキストを多様性と共同で効率を最適化するように訓練された適応メカニズムに従って組み合わせた新しいフレームワーク、Adaptive Instruction Compositionを紹介する。
本手法は,モデル転送下であっても,一組の有効性と多様性の指標において,ランダムな組み合わせを著しく上回ることを示す。
我々は、コントラスト的な埋め込み入力に適応する軽量なニューラルネットワークコンテキストバンドレットを使用し、コントラスト的な事前学習によってネットワークが学習する巨大な空間に素早く一般化し、拡張できることを示す。
- 参考スコア(独自算出の注目度): 0.8369173719399807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many approaches to LLM red-teaming leverage an attacker LLM to discover jailbreaks against a target. Several of them task the attacker with identifying effective strategies through trial and error, resulting in a semantically limited range of successes. Another approach discovers diverse attacks by combining crowdsourced harmful queries and tactics into instructions for the attacker, but does so at random, limiting effectiveness. This article introduces a novel framework, Adaptive Instruction Composition, that combines crowdsourced texts according to an adaptive mechanism trained to jointly optimize effectiveness with diversity. We use reinforcement learning to balance exploration with exploitation in a combinatorial space of instructions to guide the attacker toward diverse generations tailored to target vulnerabilities. We demonstrate that our approach substantially outperforms random combination on a set of effectiveness and diversity metrics, even under model transfer. Further, we show that it surpasses a host of recent adaptive approaches on Harmbench. We employ a lightweight neural contextual bandit that adapts to contrastive embedding inputs, and provide ablations suggesting that the contrastive pretraining enables the network to rapidly generalize and scale to the massive space as it learns.
- Abstract(参考訳): LLMのリピートに対する多くのアプローチは、ターゲットに対するジェイルブレイクを発見するために攻撃的なLLMを活用する。
いくつかは、試行錯誤を通じて効果的な戦略を特定するよう攻撃者に命じる。
別のアプローチは、クラウドソースされた有害なクエリと戦術をアタッカーの指示に組み合わせることで多様な攻撃を発見するが、ランダムに実行し、有効性を制限している。
本稿では、クラウドソースされたテキストを多様性と共同で効率を最適化するように訓練された適応メカニズムに従って組み合わせた新しいフレームワーク、Adaptive Instruction Compositionを紹介する。
我々は、強化学習を用いて、攻撃者を標的とする様々な世代に向けて誘導する、複合的な命令空間におけるエクスプロイトによる探索のバランスをとる。
本手法は,モデル転送下であっても,一組の有効性と多様性の指標において,ランダムな組み合わせを著しく上回ることを示す。
さらに、最近のHarmbenchに対する適応的アプローチのホストを超越していることが示される。
我々は、コントラスト的な埋め込み入力に適応する軽量なニューラルネットワークコンテキストバンディットを採用し、コントラスト的な事前学習によってネットワークが学習する巨大な空間に迅速に一般化しスケールできることを示す。
関連論文リスト
- Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Discriminative Adversarial Unlearning [40.30974185546541]
我々は、min-max最適化パラダイムの確立した原則に基づいて、新しい機械学習フレームワークを導入する。
我々は、訓練されたモデルから特定のサンプルの学習を容易にするために、強力なメンバーシップ推論攻撃(MIA)の能力を利用する。
提案アルゴリズムは,スクラッチから再学習する理想的なベンチマークを,ランダムサンプルの忘れ方とクラスワイドの忘れ方の両方に近似する。
論文 参考訳(メタデータ) (2024-02-10T03:04:57Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Multi-Task Federated Reinforcement Learning with Adversaries [2.6080102941802106]
強化学習アルゴリズムは敵からの深刻な脅威となる。
本稿では,多タスク連関強化学習アルゴリズムの解析を行う。
攻撃性能が向上した適応攻撃法を提案する。
論文 参考訳(メタデータ) (2021-03-11T05:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。