論文の概要: Tail-aware Adversarial Attacks: A Distributional Approach to Efficient LLM Jailbreaking
- arxiv url: http://arxiv.org/abs/2507.04446v2
- Date: Wed, 09 Jul 2025 11:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.066073
- Title: Tail-aware Adversarial Attacks: A Distributional Approach to Efficient LLM Jailbreaking
- Title(参考訳): タイル・アウェアの敵攻撃 : 効率的なLLM脱獄への分布的アプローチ
- Authors: Tim Beyer, Yan Scholten, Leo Schwinn, Stephan Günnemann,
- Abstract要約: 既存の敵攻撃は、通常、単一点、欲張り世代における有害な反応を標的にしている。
本稿では,テールリスクを含む出力分布全体を明示的にモデル化する,逆評価のための新しいフレームワークを提案する。
我々のフレームワークはまた、異なる攻撃アルゴリズムが出力の害分布にどのように影響するかを分析することができる。
- 参考スコア(独自算出の注目度): 44.8238758047607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To guarantee safe and robust deployment of large language models (LLMs) at scale, it is critical to accurately assess their adversarial robustness. Existing adversarial attacks typically target harmful responses in single-point, greedy generations, overlooking the inherently stochastic nature of LLMs. In this paper, we propose a novel framework for adversarial robustness evaluation that explicitly models the entire output distribution, including tail-risks, providing better estimates for model robustness at scale. By casting the attack process as a resource allocation problem between optimization and sampling, we determine compute-optimal tradeoffs and show that integrating sampling into existing attacks boosts ASR by up to 48% and improves efficiency by up to two orders of magnitude. Our framework also enables us to analyze how different attack algorithms affect output harm distributions. Surprisingly, we find that most optimization strategies have little effect on output harmfulness. Finally, we introduce a data-free proof-of-concept objective based on entropy-maximization to demonstrate how our tail-aware perspective enables new optimization targets. Overall, our findings highlight the importance of tail-aware attacks and evaluation protocols to accurately assess and strengthen LLM safety.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性とロバストな展開を保証するためには,その逆のロバスト性を正確に評価することが重要である。
既存の敵攻撃は、通常、単一点、強欲な世代における有害な反応を標的とし、LLMの本質的に確率的な性質を見越す。
本稿では,尾リスクを含む出力分布全体を明示的にモデル化し,スケールにおけるモデルロバスト性評価の精度向上を目的とした,対向ロバスト性評価のための新しいフレームワークを提案する。
最適化とサンプリングの資源配分問題としてアタックプロセスをキャストすることにより、計算最適トレードオフを決定し、既存のアタックにサンプリングを統合することでASRが最大48%向上し、最大2桁の効率が向上することを示す。
我々のフレームワークはまた、異なる攻撃アルゴリズムが出力損失分布にどのように影響するかを分析することができる。
驚くべきことに、ほとんどの最適化戦略は出力の有害性にはほとんど影響しない。
最後に,エントロピー最大化に基づくデータフリー概念実証法を導入し,我々のテール・アウェア・パースペクティブが新しい最適化目標をどのように実現しているかを実証する。
本研究は, LLMの安全性を正確に評価し, 強化するために, テール・アウェア・アタックと評価プロトコルの重要性を強調した。
関連論文リスト
- Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。