論文の概要: Training a General Purpose Automated Red Teaming Model
- arxiv url: http://arxiv.org/abs/2604.23067v1
- Date: Fri, 24 Apr 2026 23:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.135635
- Title: Training a General Purpose Automated Red Teaming Model
- Title(参考訳): 汎用的なレッドチームモデルのトレーニング
- Authors: Aishwarya Padmakumar, Leon Derczynski, Traian Rebedea, Christopher Parisien,
- Abstract要約: 任意の対向目標に一般化可能なレッドチームモデルのトレーニングパイプラインを提案する。
このパイプラインを用いたQwen3-8Bのような小型モデルの微調整により,攻撃発生能力が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 11.120434965095555
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated methods for red teaming LLMs are an important tool to identify LLM vulnerabilities that may not be covered in static benchmarks, allowing for more thorough probing. They can also adapt to each specific LLM to discover weaknesses unique to it. Most current automated red teaming methods are intended for tackling safety and content moderation. Thus, they make use of content safety models as evaluators and optimize for circumventing them, and as such, have not been tested with other adversarial intents not typically captured by these. We propose a pipeline for training a red teaming model that can generalize to arbitrary adversarial goals, including objectives it has not been directly trained on, and that does not depend on the existence of a pre-existing evaluator available at training time. We demonstrate that finetuning small models, such as Qwen3-8B, using this pipeline results in a substantial improvement in their ability to generate attacks for both in and out of domain adversarial goals.
- Abstract(参考訳): レッドチーム化のための自動化されたメソッドは、静的ベンチマークでカバーされないかもしれないLSMの脆弱性を識別する重要なツールであり、より徹底的な調査を可能にする。
それぞれのLSMに適応して、それ特有の弱点を発見することもできる。
現在、ほとんどの自動化されたレッドチーム方式は、安全性とコンテンツモデレーションに取り組むことを意図している。
したがって、コンテンツ安全性モデルを評価手段として利用し、それらを回避するための最適化を行う。
トレーニング時に利用可能な既存の評価器の存在に依存しない、直接訓練されていない目的を含む任意の敵目標に一般化可能なレッド・チーム・モデルのトレーニングパイプラインを提案する。
このパイプラインを用いたQwen3-8Bのような小型モデルの微調整により、ドメインの敵対的目標の内外両方の攻撃を発生させる能力が大幅に向上することを示す。
関連論文リスト
- AutoRed: A Free-form Adversarial Prompt Generation Framework for Automated Red Teaming [58.70941433155648]
AutoRedは、シード命令の必要性を取り除く自由形式の逆プロンプト生成フレームワークである。
2つのレッドチームデータセットを構築し、8つの最先端の大規模言語モデルを評価する。
本研究は,シードベースアプローチの限界を強調し,安全性評価のための自由形レッドチームの可能性を示した。
論文 参考訳(メタデータ) (2025-10-09T15:17:28Z) - Automatic LLM Red Teaming [18.044879441434432]
我々は、AIを戦略的に破壊するように訓練する、新しいパラダイムを提案する。
生成エージェントは、きめ細かいトークンレベルのハーネス報酬を通じて、コヒーレントで多ターン攻撃戦略を学習する。
このアプローチは、ダイナミックな軌道ベースのプロセスとして、新しい最先端、根本的にリフレーミングなレッドチームを設定する。
論文 参考訳(メタデータ) (2025-08-06T13:52:00Z) - CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [68.73212422583548]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration [40.350632196772466]
本稿では,大規模言語モデル(LLM)に対する完全自動化とエンドツーエンドのレッドコラボレーションのための新しいフレームワークであるAutoRedTeamerを紹介する。
AutoRedTeamerはマルチエージェントアーキテクチャとメモリ誘導型攻撃選択機構を組み合わせることで、新たな攻撃ベクトルの継続的な発見と統合を可能にする。
我々は、さまざまな評価設定でAutoRedTeamerの有効性を示し、HarmBenchのLlama-3.1-70Bに対する攻撃成功率を20%向上させた。
論文 参考訳(メタデータ) (2025-03-20T00:13:04Z) - Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models [1.9574002186090496]
LLM(Large Language Models)の急速な成長は、プライバシー、セキュリティ、倫理上の懸念を生じさせる。
研究者は最近、レッドチームによる攻撃的なアプローチでこれらの取り組みを補完した。
本稿では,LLMレッド・チームリング文学の簡潔かつ実践的な概要について述べる。
論文 参考訳(メタデータ) (2025-03-03T17:04:22Z) - Automated Red Teaming with GOAT: the Generative Offensive Agent Tester [8.947465706080523]
Red Teamingは、安全トレーニング中に設定された規範やポリシー、ルールに違反したコンテンツを、大規模な言語モデルがいかに生成できるかを評価する。
文献における既存の自動化手法のほとんどは、人間がAIモデルと対話する傾向を示すものではない。
本稿では,非言語的会話をシミュレートする自動エージェントレッド・チーム・システムであるジェネレーティブ・オッサンティブ・エージェント・テスタ(GOAT)を紹介する。
論文 参考訳(メタデータ) (2024-10-02T14:47:05Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。