論文の概要: Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs
- arxiv url: http://arxiv.org/abs/2506.13593v2
- Date: Fri, 20 Jun 2025 12:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.499851
- Title: Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs
- Title(参考訳): LLMにおける時間-安全サンプリングの補正予測下界
- Authors: Hen Davidov, Gilad Freidkin, Shai Feldman, Yaniv Romano,
- Abstract要約: 我々は、安全でない(有害な)応答を引き起こすのに必要な大規模言語モデル(LLM)世代数を定量化するフレームワークを開発する。
我々の重要な革新は、凸最適化問題として定式化された適応型、プロンプトごとのサンプリング戦略を設計することである。
- 参考スコア(独自算出の注目度): 14.568210512707603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a framework to quantify the time-to-unsafe-sampling - the number of large language model (LLM) generations required to trigger an unsafe (e.g., toxic) response. Estimating this quantity is challenging, since unsafe responses are exceedingly rare in well-aligned LLMs, potentially occurring only once in thousands of generations. As a result, directly estimating time-to-unsafe-sampling would require collecting training data with a prohibitively large number of generations per prompt. However, with realistic sampling budgets, we often cannot generate enough responses to observe an unsafe outcome for every prompt, leaving the time-to-unsafe-sampling unobserved in many cases, making the estimation and evaluation tasks particularly challenging. To address this, we frame this estimation problem as one of survival analysis and develop a provably calibrated lower predictive bound (LPB) on the time-to-unsafe-sampling of a given prompt, leveraging recent advances in conformal prediction. Our key innovation is designing an adaptive, per-prompt sampling strategy, formulated as a convex optimization problem. The objective function guiding this optimized sampling allocation is designed to reduce the variance of the estimators used to construct the LPB, leading to improved statistical efficiency over naive methods that use a fixed sampling budget per prompt. Experiments on both synthetic and real data support our theoretical results and demonstrate the practical utility of our method for safety risk assessment in generative AI models.
- Abstract(参考訳): 我々は、安全でない(例えば有毒な)応答をトリガーするために必要な大規模言語モデル(LLM)世代数を定量化するフレームワークを開発する。
安全でない応答は、十分に整列したLSMでは極めて稀であり、数千世代に一度しか発生しない可能性があるため、この量の推定は困難である。
結果として、時間から安全でないサンプリングを直接見積もるには、プロンプト毎に非常に多くの世代でトレーニングデータを収集する必要がある。
しかし、現実的なサンプリング予算では、各プロンプトに対して安全でない結果を見るのに十分なレスポンスを生成できないことが多く、多くの場合、安全でないサンプリングは見つからないため、評価と評価のタスクは特に困難である。
これを解決するために、我々はこの推定問題を生存分析の1つとして、与えられたプロンプトの時間-安全サンプリングに基づいて、有効に調整可能な下限予測境界(LPB)を開発し、近年の等角予測の進歩を活用している。
我々の重要な革新は、凸最適化問題として定式化された適応型、プロンプトごとのサンプリング戦略を設計することである。
この最適化されたサンプリングアロケーションを導く目的関数は、LPBの構築に使用される推定器のばらつきを低減し、各プロンプトに固定されたサンプリング予算を使用するネーブ方式よりも統計効率を向上させるように設計されている。
合成データと実データの両方の実験は、我々の理論結果をサポートし、生成AIモデルにおける安全リスク評価のための方法の実用的有用性を実証する。
関連論文リスト
- Efficient Uncertainty Estimation via Distillation of Bayesian Large Language Models [12.69571386421462]
本稿では,不確実性推定のためのテスト時間サンプリングの必要性を解消する可能性を検討する。
既成のベイズ式LLMを非ベイズ式LLMに蒸留し, 予測分布のばらつきを最小限に抑える。
実験により,トレーニングデータにおける不確実性推定能力は,未確認テストデータにうまく一般化できることが実証された。
論文 参考訳(メタデータ) (2025-05-16T22:26:03Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Uncertainty Quantification for LLM-Based Survey Simulations [9.303339416902995]
本研究では,大規模言語モデル(LLM)を用いて質問に対する人間の反応をシミュレートする。
提案手法は,不完全なLLMシミュレーション応答を集団パラメータの信頼セットに変換する。
重要な革新は、シミュレーションされたレスポンスの最適な数を決定することである。
論文 参考訳(メタデータ) (2025-02-25T02:07:29Z) - Treatment of Statistical Estimation Problems in Randomized Smoothing for Adversarial Robustness [0.0]
ランダムな平滑化のための統計的推定問題について検討し,計算負担の有無を確かめる。
本稿では,標準手法と同じ統計的保証を享受する信頼度系列を用いた推定手法を提案する。
厳密な認証を行うために,Clopper-Pearson信頼区間のランダム化版を提供する。
論文 参考訳(メタデータ) (2024-06-25T14:00:55Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Physics-informed RL for Maximal Safety Probability Estimation [0.8287206589886881]
本研究では,リスクのある状態や長期軌道からのサンプルを十分にカバーすることなく,最大安全行動の長期安全確率を推定する方法を検討する。
提案手法は,短期サンプルを用いて長期リスクを推定し,未サンプリング状態のリスクを推定する。
論文 参考訳(メタデータ) (2024-03-25T03:13:56Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Holdouts set for safe predictive model updating [0.4499833362998489]
リスクスコアによって導かれる介入を受けない集団のサブセットであるホールドアウトセット(holdout set)の使用を提案する。
予防接種前の症例数を最小化するためには,約1万件のホールドアウトセットを用いて実施することが最善であることを示す。
論文 参考訳(メタデータ) (2022-02-13T18:04:00Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。