論文の概要: Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling
- arxiv url: http://arxiv.org/abs/2601.22636v1
- Date: Fri, 30 Jan 2026 06:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.282008
- Title: Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling
- Title(参考訳): ベスト・オブ・Nサンプリングによる大規模言語モデルの対立リスクの統計的推定
- Authors: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao,
- Abstract要約: 大規模言語モデル(LLM)は、通常、単一ショットまたは低予算の逆のプロンプトの下で安全性を評価する。
我々は,Best-of-Nサンプリングの下でのジェイルブレイク脆弱性をモデル化するための,スケーリング対応のリスク推定手法であるSABERを提案する。
- 参考スコア(独自算出の注目度): 50.872910438715486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、通常、単一ショットまたは低予算の逆のプロンプトの下で安全性を評価し、現実世界のリスクを過小評価する。
実際には、攻撃者は大規模な並列サンプリングを利用して、有害な応答が生成されるまで繰り返しモデルを探索することができる。
近年の研究では、繰り返しサンプリングすることで攻撃の成功が増加することが示されているが、大規模な敵のリスクを予測するための原則的手法は依然として限られている。
我々は,Best-of-Nサンプリングの下でのジェイルブレイク脆弱性をモデル化するための,スケーリング対応のリスク推定手法であるSABERを提案する。
本研究では,Bernolli分布より前の共役であるベータ分布を用いて,サンプルレベルの成功確率をモデル化し,小予算測定による大規模N攻撃の成功率の確実な外挿を可能にする解析的スケーリング法則を導出する。
n=100サンプルのみを用いて平均絶対誤差1.66でASR@1000を予測し、ベースラインは12.04であり、推定誤差は86.2%減少する。
この結果から, 標準評価下で頑健に現れるモデルが, 並列対向圧下での急激な非線形リスク増幅を経験できることが示唆された。
この作業は、現実的なLLM安全性評価のための低コストでスケーラブルな方法論を提供する。
今後の研究のために、コードと評価スクリプトを公開します。
関連論文リスト
- Distillability of LLM Security Logic: Predicting Attack Success Rate of Outline Filling Attack via Ranking Regression [10.64873345204336]
敵のプロンプトの攻撃成功率(ASR)を予測するために設計された軽量モデルはまだ未定である。
本稿では,モデルのセキュリティ境界の厳密なサンプリングを実現するために,改良されたアウトラインフィリング攻撃を組み込んだ新しいフレームワークを提案する。
実験結果から,提案手法は平均長値の相対的ランク付けにおいて,91.1%の精度が得られることがわかった。
論文 参考訳(メタデータ) (2025-11-27T02:55:31Z) - The Tail Tells All: Estimating Model-Level Membership Inference Vulnerability Without Reference Models [8.453525669833853]
本稿では,モデルレベルの脆弱性である低FPRにおけるTPRを,参照モデルを必要としないメンバシップ推論攻撃に推定するための新しいアプローチを提案する。
本手法は,RMIAなどの低コスト(参照モデル)攻撃と,他の分布差の測定値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-22T17:03:55Z) - Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs [19.045128057653784]
我々は、生成モデルのための新しい安全対策である、時間対安全サンプリングを導入する。
安全でない出力は、よく整列されたモデルではまれであるため、事実上のサンプリング予算では観測されないことがある。
本稿では,厳密なカバレッジ保証付きプロンプトの時間とアンセーフサンプリングに基づいて,低予測境界(LPB)を構築するための新しいキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-06-16T15:21:25Z) - Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Risk-Averse Certification of Bayesian Neural Networks [70.44969603471903]
本稿では,RAC-BNNと呼ばれるベイズニューラルネットワークに対するリスク・アバース認証フレームワークを提案する。
提案手法はサンプリングと最適化を利用して,BNNの出力集合の音響近似を計算する。
我々は,RAC-BNNを回帰および分類ベンチマークで検証し,その性能を最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-11-29T14:22:51Z) - Confidence Aware Learning for Reliable Face Anti-spoofing [52.23271636362843]
本稿では,その能力境界を意識した信頼認識顔アンチスプーフィングモデルを提案する。
各サンプルの予測中にその信頼性を推定する。
実験の結果,提案したCA-FASは予測精度の低いサンプルを効果的に認識できることがわかった。
論文 参考訳(メタデータ) (2024-11-02T14:29:02Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Selecting Models based on the Risk of Damage Caused by Adversarial
Attacks [2.969705152497174]
規制、法的責任、社会的懸念は、安全およびセキュリティクリティカルなアプリケーションにおけるAIの採用に挑戦する。
重要な懸念の1つは、敵が検出されずにモデル予測を操作することで害を引き起こす可能性があることである。
本稿では,敵攻撃による被害の確率をモデル化し,統計的に推定する手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。