論文の概要: Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs
- arxiv url: http://arxiv.org/abs/2506.13593v3
- Date: Wed, 15 Oct 2025 21:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 18:56:32.508116
- Title: Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs
- Title(参考訳): LLMにおける時間-安全サンプリングの補正予測下界
- Authors: Hen Davidov, Gilad Freidkin, Shai Feldman, Yaniv Romano,
- Abstract要約: 我々は、生成モデルのための新しい安全対策である、時間対安全サンプリングを導入する。
安全でない出力は、よく整列されたモデルではまれであるため、事実上のサンプリング予算では観測されないことがある。
本稿では,厳密なカバレッジ保証付きプロンプトの時間とアンセーフサンプリングに基づいて,低予測境界(LPB)を構築するための新しいキャリブレーション手法を提案する。
- 参考スコア(独自算出の注目度): 19.045128057653784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce time-to-unsafe-sampling, a novel safety measure for generative models, defined as the number of generations required by a large language model (LLM) to trigger an unsafe (e.g., toxic) response. While providing a new dimension for prompt-adaptive safety evaluation, quantifying time-to-unsafe-sampling is challenging: unsafe outputs are often rare in well-aligned models and thus may not be observed under any feasible sampling budget. To address this challenge, we frame this estimation problem as one of survival analysis. We build on recent developments in conformal prediction and propose a novel calibration technique to construct a lower predictive bound (LPB) on the time-to-unsafe-sampling of a given prompt with rigorous coverage guarantees. Our key technical innovation is an optimized sampling-budget allocation scheme that improves sample efficiency while maintaining distribution-free guarantees. Experiments on both synthetic and real data support our theoretical results and demonstrate the practical utility of our method for safety risk assessment in generative AI models.
- Abstract(参考訳): 生成モデルのための新しい安全基準である時間対安全サンプリングを導入し、安全でない(例えば有害な)応答を誘発するために、大言語モデル(LLM)が要求する世代数として定義する。
即時適応型安全性評価のための新しい次元を提供する一方で、時間対安全サンプリングの定量化は困難である。
この課題に対処するため、我々はこの推定問題を生存分析の1つとして考察した。
我々は,近年のコンフォーマル予測の展開に基づいて,厳密なカバレッジ保証付きプロンプトのタイム・トゥ・アンセーフサンプリングに基づいて,より低い予測境界(LPB)を構築するためのキャリブレーション手法を提案する。
我々の重要な技術的革新は、分散のない保証を維持しながらサンプル効率を向上させる最適化されたサンプリング予算配分方式である。
合成データと実データの両方の実験は、我々の理論結果をサポートし、生成AIモデルにおける安全リスク評価のための方法の実用的有用性を実証する。
関連論文リスト
- Efficient Uncertainty Estimation via Distillation of Bayesian Large Language Models [12.69571386421462]
本稿では,不確実性推定のためのテスト時間サンプリングの必要性を解消する可能性を検討する。
既成のベイズ式LLMを非ベイズ式LLMに蒸留し, 予測分布のばらつきを最小限に抑える。
実験により,トレーニングデータにおける不確実性推定能力は,未確認テストデータにうまく一般化できることが実証された。
論文 参考訳(メタデータ) (2025-05-16T22:26:03Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Uncertainty Quantification for LLM-Based Survey Simulations [9.303339416902995]
本研究では,大規模言語モデル(LLM)を用いて質問に対する人間の反応をシミュレートする。
提案手法は,不完全なLLMシミュレーション応答を集団パラメータの信頼セットに変換する。
重要な革新は、シミュレーションされたレスポンスの最適な数を決定することである。
論文 参考訳(メタデータ) (2025-02-25T02:07:29Z) - Treatment of Statistical Estimation Problems in Randomized Smoothing for Adversarial Robustness [0.0]
ランダムな平滑化のための統計的推定問題について検討し,計算負担の有無を確かめる。
本稿では,標準手法と同じ統計的保証を享受する信頼度系列を用いた推定手法を提案する。
厳密な認証を行うために,Clopper-Pearson信頼区間のランダム化版を提供する。
論文 参考訳(メタデータ) (2024-06-25T14:00:55Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Physics-informed RL for Maximal Safety Probability Estimation [0.8287206589886881]
本研究では,リスクのある状態や長期軌道からのサンプルを十分にカバーすることなく,最大安全行動の長期安全確率を推定する方法を検討する。
提案手法は,短期サンプルを用いて長期リスクを推定し,未サンプリング状態のリスクを推定する。
論文 参考訳(メタデータ) (2024-03-25T03:13:56Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Holdouts set for safe predictive model updating [0.4499833362998489]
リスクスコアによって導かれる介入を受けない集団のサブセットであるホールドアウトセット(holdout set)の使用を提案する。
予防接種前の症例数を最小化するためには,約1万件のホールドアウトセットを用いて実施することが最善であることを示す。
論文 参考訳(メタデータ) (2022-02-13T18:04:00Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。