論文の概要: Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts
- arxiv url: http://arxiv.org/abs/2510.07239v1
- Date: Wed, 08 Oct 2025 17:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.650094
- Title: Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts
- Title(参考訳): Red-Bandit: Bandit-Guided LoRA Experts による LLM Red-Teaming のテスト時間適応
- Authors: Christos Ziakas, Nicholas Loo, Nishita Jain, Alessandra Russo,
- Abstract要約: Red-Banditは、異なる攻撃スタイルの下でモデル障害モードを特定し、活用するためにオンラインに適応するフレームワークである。
レッドバンディットは十分な探索の下でAdvBenchの最先端の結果を達成する。
Red-Banditのバンディットポリシーは、モデル固有の脆弱性を明らかにするための診断ツールとして機能する。
- 参考スコア(独自算出の注目度): 42.47796452023315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated red-teaming has emerged as a scalable approach for auditing Large Language Models (LLMs) prior to deployment, yet existing approaches lack mechanisms to efficiently adapt to model-specific vulnerabilities at inference. We introduce Red-Bandit, a red-teaming framework that adapts online to identify and exploit model failure modes under distinct attack styles (e.g., manipulation, slang). Red-Bandit post-trains a set of parameter-efficient LoRA experts, each specialized for a particular attack style, using reinforcement learning that rewards the generation of unsafe prompts via a rule-based safety model. At inference, a multi-armed bandit policy dynamically selects among these attack-style experts based on the target model's response safety, balancing exploration and exploitation. Red-Bandit achieves state-of-the-art results on AdvBench under sufficient exploration (ASR@10), while producing more human-readable prompts (lower perplexity). Moreover, Red-Bandit's bandit policy serves as a diagnostic tool for uncovering model-specific vulnerabilities by indicating which attack styles most effectively elicit unsafe behaviors.
- Abstract(参考訳): デプロイ前にLLM(Large Language Models)を監査するためのスケーラブルなアプローチとして、自動化されたリチーム方式が登場したが、既存のアプローチでは、推論時にモデル固有の脆弱性に効率的に適応するメカニズムが欠如している。
Red-Banditは、異なる攻撃スタイル(例えば、操作、スラング)の下でモデル障害モードを特定し、活用するために、オンラインに適応するレッドチームフレームワークである。
Red-Banditはパラメータ効率のよいLoRA専門家のセットをポストトレーニングし、それぞれが特定の攻撃スタイルに特化しており、ルールベースの安全モデルを通じて安全でないプロンプトの生成に報いる強化学習を使用している。
推論では、ターゲットモデルの応答安全性、探索とエクスプロイトのバランスに基づいて、マルチアームのバンディットポリシーがこれらの攻撃スタイルの専門家の中から動的に選択される。
レッドバンディットは十分な探索(ASR@10)の下でAdvBenchの最先端の結果を達成すると同時に、より可読なプロンプト(より低いパープレキシティ)を生成する。
さらに、レッドバンディットのバンディットポリシーは、どの攻撃スタイルが安全でない行動を最も効果的に引き起こすかを示すことによって、モデル固有の脆弱性を明らかにするための診断ツールとして機能する。
関連論文リスト
- Active Attacks: Red-teaming LLMs via Adaptive Environments [71.55110023234376]
大規模言語モデル(LLM)に対する多様な攻撃プロンプトを生成するという課題に対処する。
我々は、犠牲者が進化するにつれて攻撃に適応する新しいRLベースのレッドチームアルゴリズムであるtextitActive Attacksを導入する。
論文 参考訳(メタデータ) (2025-09-26T06:27:00Z) - Quality-Diversity Red-Teaming: Automated Generation of High-Quality and Diverse Attackers for Large Language Models [34.601888589730194]
本稿では,これらの制約に対処する新しいフレームワークであるQDRTを紹介する。
QDRTは、行動条件付きトレーニングを通じて目標駆動の多様性を実現し、オープンな方法で行動リプレイバッファを実装する。
我々の経験的評価は、QDRTがより多種多様で、広範囲のLLMに対してより効果的に攻撃を発生させることを示す。
論文 参考訳(メタデータ) (2025-06-08T13:07:41Z) - CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [61.404771120828244]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。