論文の概要: When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models
- arxiv url: http://arxiv.org/abs/2603.19247v1
- Date: Sat, 21 Feb 2026 05:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.770014
- Title: When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models
- Title(参考訳): Prompt Optimizationがjailbreakingになった時 - 大規模言語モデルの適応的再チーム化
- Authors: Zafir Shamsi, Nikhil Chekuru, Zachary Guzman, Shivank Garg,
- Abstract要約: 大規模言語モデル (LLMs) は、ハイテイクなアプリケーションにますます統合されている。
既存の安全性評価は、非適応的な敵を暗黙的に仮定して、有害なプロンプトの固定されたコレクションに依存している。
本研究では,現代言語モデルの脆弱性を,自動的,対角的,即時的な改善のために検討する。
- 参考スコア(独自算出の注目度): 1.5049442691806052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into high-stakes applications, making robust safety guarantees a central practical and commercial concern. Existing safety evaluations predominantly rely on fixed collections of harmful prompts, implicitly assuming non-adaptive adversaries and thereby overlooking realistic attack scenarios in which inputs are iteratively refined to evade safeguards. In this work, we examine the vulnerability of contemporary language models to automated, adversarial prompt refinement. We repurpose black-box prompt optimization techniques, originally designed to improve performance on benign tasks, to systematically search for safety failures. Using DSPy, we apply three such optimizers to prompts drawn from HarmfulQA and JailbreakBench, explicitly optimizing toward a continuous danger score in the range 0 to 1 provided by an independent evaluator model (GPT-5.1). Our results demonstrate a substantial reduction in effective safety safeguards, with the effects being especially pronounced for open-source small language models. For example, the average danger score of Qwen 3 8B increases from 0.09 in its baseline setting to 0.79 after optimization. These findings suggest that static benchmarks may underestimate residual risk, indicating that automated, adaptive red-teaming is a necessary component of robust safety evaluation.
- Abstract(参考訳): 大規模言語モデル (LLM) は、ますます高度なアプリケーションに統合され、堅牢な安全性を保証することが、実用的かつ商業的な関心事の中心となっている。
既存の安全性評価は、主に有害なプロンプトの固定されたコレクションに依存しており、非適応的な敵を暗黙的に仮定し、それによって、入力を反復的に洗練してセーフガードを避けるという現実的な攻撃シナリオを見落としている。
本研究では,現代言語モデルの脆弱性を,自動的,対角的,即時的な改善のために検討する。
ブラックボックスのプロンプト最適化技術は、本来、良質なタスクの性能向上を目的として設計され、安全上の障害を体系的に検索する。
DSPyを用いて、HarmfulQA と JailbreakBench から引き出されたプロンプトに対して、独立評価モデル (GPT-5.1) によって提供される範囲 0 から 1 までの連続危険スコアに対して明示的に最適化する。
本研究は, オープンソースの小言語モデルにおいて, 有効安全ガードの大幅な削減効果を示すものである。
例えば、Qwen 3 8Bの平均危険度は、ベースライン設定の0.09から最適化後の0.79に増加する。
これらの結果から, 静的ベンチマークは残留リスクを過小評価する可能性が示唆され, 自動化された適応型リピートがロバスト安全性評価の必須要素であることが示唆された。
関連論文リスト
- SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - Think Twice, Generate Once: Safeguarding by Progressive Self-Reflection [18.467741067831877]
本稿では,大規模言語モデルを自己監視に活用し,その出力を動的に補正する新しい推論時間手法であるプログレッシブ・セルフリフレクションを紹介する。
Llama-3.1-8B-Instructに提案手法を適用した結果,攻撃成功率は77.5%から5.9%に低下した。
提案手法はテスト時間スケーリングの手法として機能し,追加の自己回帰ラウンドによって推論オーバーヘッドのコストで安全性が向上する。
論文 参考訳(メタデータ) (2025-09-29T12:54:28Z) - IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement [35.904652937034136]
IntentionReasonerは、専用ガードモデルを利用して意図的推論を行う新しいセーフガード機構である。
IntentionReasonerは、複数のセーフガードベンチマーク、生成品質評価、ジェイルブレイク攻撃シナリオに優れています。
論文 参考訳(メタデータ) (2025-08-27T16:47:31Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。