論文の概要: Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs
- arxiv url: http://arxiv.org/abs/2506.13593v1
- Date: Mon, 16 Jun 2025 15:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.790743
- Title: Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs
- Title(参考訳): LLMにおける時間-安全サンプリングの補正予測下界
- Authors: Hen Davidov, Gilad Freidkin, Shai Feldman, Yaniv Romano,
- Abstract要約: 我々は、安全でない(有害な)応答を引き起こすのに必要な大規模言語モデル(LLM)世代数を定量化するフレームワークを開発する。
我々の重要な革新は、凸最適化問題として定式化された適応型、プロンプトごとのサンプリング戦略を設計することである。
- 参考スコア(独自算出の注目度): 14.568210512707603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a framework to quantify the time-to-unsafe-sampling - the number of large language model (LLM) generations required to trigger an unsafe (e.g., toxic) response. Estimating this quantity is challenging, since unsafe responses are exceedingly rare in well-aligned LLMs, potentially occurring only once in thousands of generations. As a result, directly estimating time-to-unsafe-sampling would require collecting training data with a prohibitively large number of generations per prompt. However, with realistic sampling budgets, we often cannot generate enough responses to observe an unsafe outcome for every prompt, leaving the time-to-unsafe-sampling unobserved in many cases, making the estimation and evaluation tasks particularly challenging. To address this, we frame this estimation problem as one of survival analysis and develop a provably calibrated lower predictive bound (LPB) on the time-to-unsafe-sampling of a given prompt, leveraging recent advances in conformal prediction. Our key innovation is designing an adaptive, per-prompt sampling strategy, formulated as a convex optimization problem. The objective function guiding this optimized sampling allocation is designed to reduce the variance of the estimators used to construct the LPB, leading to improved statistical efficiency over naive methods that use a fixed sampling budget per prompt. Experiments on both synthetic and real data support our theoretical results and demonstrate the practical utility of our method for safety risk assessment in generative AI models.
- Abstract(参考訳): 我々は、安全でない(例えば有毒な)応答をトリガーするために必要な大規模言語モデル(LLM)世代数を定量化するフレームワークを開発する。
安全でない応答は、十分に整列したLSMでは極めて稀であり、数千世代に一度しか発生しない可能性があるため、この量の推定は困難である。
結果として、時間から安全でないサンプリングを直接見積もるには、プロンプト毎に非常に多くの世代でトレーニングデータを収集する必要がある。
しかし、現実的なサンプリング予算では、各プロンプトに対して安全でない結果を見るのに十分なレスポンスを生成できないことが多く、多くの場合、安全でないサンプリングは見つからないため、評価と評価のタスクは特に困難である。
これを解決するために、我々はこの推定問題を生存分析の1つとして、与えられたプロンプトの時間-安全サンプリングに基づいて、有効に調整可能な下限予測境界(LPB)を開発し、近年の等角予測の進歩を活用している。
我々の重要な革新は、凸最適化問題として定式化された適応型、プロンプトごとのサンプリング戦略を設計することである。
この最適化されたサンプリングアロケーションを導く目的関数は、LPBの構築に使用される推定器のばらつきを低減し、各プロンプトに固定されたサンプリング予算を使用するネーブ方式よりも統計効率を向上させるように設計されている。
合成データと実データの両方の実験は、我々の理論結果をサポートし、生成AIモデルにおける安全リスク評価のための方法の実用的有用性を実証する。
関連論文リスト
- Uncertainty Quantification for LLM-Based Survey Simulations [9.303339416902995]
本研究では,大規模言語モデル(LLM)を用いて質問に対する人間の反応をシミュレートする。
提案手法は,不完全なLLMシミュレーション応答を集団パラメータの信頼セットに変換する。
重要な革新は、シミュレーションされたレスポンスの最適な数を決定することである。
論文 参考訳(メタデータ) (2025-02-25T02:07:29Z) - Treatment of Statistical Estimation Problems in Randomized Smoothing for Adversarial Robustness [0.0]
ランダムな平滑化のための統計的推定問題について検討し,計算負担の有無を確かめる。
本稿では,標準手法と同じ統計的保証を享受する信頼度系列を用いた推定手法を提案する。
厳密な認証を行うために,Clopper-Pearson信頼区間のランダム化版を提供する。
論文 参考訳(メタデータ) (2024-06-25T14:00:55Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。