論文の概要: Exposing Long-Tail Safety Failures in Large Language Models through Efficient Diverse Response Sampling
- arxiv url: http://arxiv.org/abs/2603.14355v1
- Date: Sun, 15 Mar 2026 12:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.767448
- Title: Exposing Long-Tail Safety Failures in Large Language Models through Efficient Diverse Response Sampling
- Title(参考訳): 大言語モデルにおける高能率逆応答サンプリングによる長距離安全故障の抽出
- Authors: Suvadeep Hajra, Palash Nandi, Tanmoy Chakraborty,
- Abstract要約: 本研究は, 各種応答生成(アウトプット空間探索)によって安全障害を系統的に暴露し, 固定された安全クリティカルプロンプトを提案する。
本稿では,トークンレベルのサンプリングと多様性を意識した選択を組み合わせたプログレッシブ・ディバース・ポピュレーション・サンプリングを提案する。
大規模IIDサンプリングに匹敵する攻撃成功率を実現し、計算コストの8%から29%しか使用していない。
- 参考スコア(独自算出の注目度): 16.855507865785345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety tuning through supervised fine-tuning and reinforcement learning from human feedback has substantially improved the robustness of large language models (LLMs). However, it often suppresses rather than eliminates unsafe behaviors, leaving rare but critical failures hidden in the long tail of the output distribution. While most red-teaming work emphasizes adversarial prompt search (input-space optimization), we show that safety failures can also be systematically exposed through diverse response generation (output-space exploration) for a fixed safety-critical prompt, where increasing the number and diversity of sampled responses can drive jailbreak success rates close to unity. To efficiently uncover such failures, we propose Progressive Diverse Population Sampling (PDPS), which combines stochastic token-level sampling with diversity-aware selection to explore a large candidate pool of responses and retain a compact, semantically diverse subset. Across multiple jailbreak benchmarks and open-source LLMs, PDPS achieves attack success rates comparable to large-scale IID sampling while using only 8% to 29% of the computational cost. Under limited-response settings, it improves success rates by 26% to 40% over IID sampling and Diverse Beam Search. Furthermore, responses generated by PDPS exhibit both a higher number and greater diversity of unsafe outputs, demonstrating its effectiveness in uncovering a broader range of failures.
- Abstract(参考訳): 教師付き微調整と人間からのフィードバックによる強化学習による安全性チューニングは,大規模言語モデル(LLM)の堅牢性を大幅に向上させた。
しかし、安全でない振る舞いを排除せず、しばしば抑制し、出力分布の長い尾に隠された稀だが重要な障害を残す。
多くの赤チームの作業は、敵のプロンプト探索(インプット-スペース最適化)を強調しているが、固定された安全クリティカルなプロンプトに対して、多様な応答生成(アウトプット-スペース探索)を通じて安全障害を体系的に露呈できることを示し、サンプル応答の数と多様性を増大させることで、ジェイルブレイクの成功率をユニティに近づけることができる。
このような障害を効果的に発見するために,確率的トークンレベルサンプリングと多様性を考慮した選択を組み合わせたプログレッシブ・ディバース・ポピュレーション・サンプリング(PDPS)を提案する。
複数のjailbreakベンチマークとオープンソースのLLMで、PDPSは大規模IIDサンプリングに匹敵する攻撃成功率を達成し、計算コストの8%から29%しか使用していない。
限定応答設定では、IDサンプリングや横ビームサーチよりも成功率を26%から40%向上させる。
さらに、PDPSが生成した応答は、より多数の安全でない出力の多様性を示し、より広い範囲の障害を明らかにする効果を示す。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - On the Effect of Sampling Diversity in Scaling LLM Inference [57.31028064284527]
大規模言語モデル(LLM)のスケーリング推論は、パフォーマンス向上の鍵となる。
解の精度と応答の有意な多様性の関係から,スケーリング推論における急激な多様性の効果を体系的に研究した。
また,Best-of-N$選択後の有意義な多様なプロンプトから生成した応答は,定常的なプロンプトから生成した応答よりも有意に低い値を示した。
論文 参考訳(メタデータ) (2025-02-16T07:37:58Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。