論文の概要: Capability-Based Scaling Laws for LLM Red-Teaming
- arxiv url: http://arxiv.org/abs/2505.20162v1
- Date: Mon, 26 May 2025 16:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.923938
- Title: Capability-Based Scaling Laws for LLM Red-Teaming
- Title(参考訳): LLMリチームのための能力ベーススケーリング法則
- Authors: Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping,
- Abstract要約: 従来のプロンプト・エンジニアリングのアプローチは、レッド・チーム化が弱々しく強い問題となると、効果が低下する可能性がある。
我々は,LLMをベースとしたアタッカー・ターゲットペア500以上を,人間のレッドチームの模倣したジェイルブレイク攻撃を用いて評価した。
我々は、攻撃目標能力のギャップに基づいて、固定目標に対する攻撃成功を予測するジェイルブレイクスケーリング法を導出する。
- 参考スコア(独自算出の注目度): 71.89259138609965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models grow in capability and agency, identifying vulnerabilities through red-teaming becomes vital for safe deployment. However, traditional prompt-engineering approaches may prove ineffective once red-teaming turns into a weak-to-strong problem, where target models surpass red-teamers in capabilities. To study this shift, we frame red-teaming through the lens of the capability gap between attacker and target. We evaluate more than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic human red-teamers across diverse families, sizes, and capability levels. Three strong trends emerge: (i) more capable models are better attackers, (ii) attack success drops sharply once the target's capability exceeds the attacker's, and (iii) attack success rates correlate with high performance on social science splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking scaling law that predicts attack success for a fixed target based on attacker-target capability gap. These findings suggest that fixed-capability attackers (e.g., humans) may become ineffective against future models, increasingly capable open-source models amplify risks for existing systems, and model providers must accurately measure and control models' persuasive and manipulative abilities to limit their effectiveness as attackers.
- Abstract(参考訳): 大きな言語モデルが能力とエージェンシーに成長するにつれて、安全なデプロイメントには、レッドチームによる脆弱性の特定が不可欠になる。
しかし、従来のプロンプト・エンジニアリングのアプローチは、レッド・チームの能力がレッド・チームの能力を上回り、レッド・チームの弱点となると、効果が低下する可能性がある。
このシフトを研究するために、攻撃者と目標の間の能力ギャップのレンズを通して、レッドチームを行う。
LLMをベースとしたJailbreak攻撃を用いて,500組以上の攻撃目標ペアを評価した。
3つの強い傾向が浮かび上がっています。
(i)より有能なモデルはより優れた攻撃者である。
(ii)攻撃成功率は、目標の能力が攻撃者を超えると急激に低下し、
(3)MMLU-Proベンチマークの社会科学分割における攻撃成功率は高い性能と相関する。
これらの傾向から、攻撃目標能力のギャップに基づいて、固定目標に対する攻撃成功を予測するジェイルブレイクスケーリング法を導出する。
これらの結果は、固定能力攻撃者(例えば人間)は将来のモデルに対して非効率になり、オープンソースモデルは既存のシステムに対するリスクを増大させ、モデル提供者は攻撃者としての有効性を制限するためにモデルの説得力および操作能力を正確に測定し制御する必要があることを示唆している。
関連論文リスト
- Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。
これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。
本稿では,モデル自体が生成したデータを活用することで,セキュリティを向上させるための最適化フレームワークであるmathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)について紹介する。
論文 参考訳(メタデータ) (2024-08-05T16:55:06Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。