論文の概要: Estimating Tail Risks in Language Model Output Distributions
- arxiv url: http://arxiv.org/abs/2604.22167v1
- Date: Fri, 24 Apr 2026 02:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.314324
- Title: Estimating Tail Risks in Language Model Output Distributions
- Title(参考訳): 言語モデル出力分布におけるテールリスクの推定
- Authors: Rico Angell, Raghav Singhal, Zachary Horvitz, Zhou Yu, Rajesh Ranganath, Kathleen McKeown, He He,
- Abstract要約: 言語モデルはますます能力が高くなり、人口レベルの規模で急速に展開されている。
モデルが1日に何十億回もクエリされる場合、稀な最悪の行動さえ発生します。
入力クエリに対して有害な出力の確率を効率的に推定する手法を提案する。
- 参考スコア(独自算出の注目度): 44.05461209870279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are increasingly capable and are being rapidly deployed on a population-level scale. As a result, the safety of these models is increasingly high-stakes. Fortunately, advances in alignment have significantly reduced the likelihood of harmful model outputs. However, when models are queried billions of times in a day, even rare worst-case behaviors will occur. Current safety evaluations focus on capturing the distribution of inputs that yield harmful outputs. These evaluations disregard the probabilistic nature of models and their tail output behavior. To measure this tail risk, we propose a method to efficiently estimate the probability of harmful outputs for any input query. Instead of naive brute-force sampling from the target model, where harmful outputs could be rare, we operationalize importance sampling by creating unsafe versions of the target model. These unsafe versions enable sample-efficient estimation by making harmful outputs more probable. On benchmarks measuring misuse and misalignment, these estimates match brute-force Monte Carlo estimates using 10-20x fewer samples. For example, we can estimate probability of harmful outputs on the order of 10^-4 with just 500 samples. Additionally, we find that these harmfulness estimates can reveal the sensitivity of models to perturbations in model input and predict deployment risks. Our work demonstrates that accurate rare-event estimation is both critical and feasible for safety evaluations. Code is available at https://github.com/rangell/LMTailRisk
- Abstract(参考訳): 言語モデルはますます能力が高くなり、人口レベルの規模で急速に展開されている。
その結果、これらのモデルの安全性はますます高くなっている。
幸いなことに、アライメントの進歩は有害なモデル出力の可能性を大幅に減らした。
しかし、モデルが1日に何十億回もクエリされる場合、稀な最悪の行動さえ発生します。
現在の安全性評価では、有害な出力をもたらす入力の分布を捉えることに重点を置いている。
これらの評価はモデルの確率的性質とテール出力の挙動を無視する。
このテールリスクを測定するために,入力クエリに対して有害な出力の確率を効率的に推定する手法を提案する。
有害な出力が希少なターゲットモデルから無害なブルートフォースサンプリングを行う代わりに、ターゲットモデルの安全でないバージョンを作成することで重要度サンプリングを運用する。
これらの安全でないバージョンは、有害な出力をより高い確率で予測することで、サンプル効率の見積もりを可能にする。
悪用と悪用を計測するベンチマークでは、これらの推定値は10-20倍のサンプルを用いてブルートフォースモンテカルロの推定値と一致している。
例えば、500サンプルだけで10^-4のオーダーで有害な出力の確率を推定できる。
さらに、これらの有害度推定は、モデル入力の摂動に対するモデルの感度を明らかにし、デプロイメントのリスクを予測する。
本研究は, 安全評価において, 正確なレアイベント推定が重要かつ有益であることを示すものである。
コードはhttps://github.com/rangell/LMTailRiskで入手できる。
関連論文リスト
- Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling [50.872910438715486]
大規模言語モデル(LLM)は、通常、単一ショットまたは低予算の逆のプロンプトの下で安全性を評価する。
我々は,Best-of-Nサンプリングの下でのジェイルブレイク脆弱性をモデル化するための,スケーリング対応のリスク推定手法であるSABERを提案する。
論文 参考訳(メタデータ) (2026-01-30T06:54:35Z) - Uncertainty-Aware Decoding with Minimum Bayes Risk [70.6645260214115]
予測されたリスクに応じてモデル生成を選択する最小ベイズリスク復号法を,原理化された不確実性認識復号法に一般化する方法を示す。
この修正された予測リスクは、出力の選択と生成をいつ中止するかの判断の両方に有用であり、オーバーヘッドを発生させることなく改善を提供できることを示す。
論文 参考訳(メタデータ) (2025-03-07T10:55:12Z) - Forecasting Rare Language Model Behaviors [20.712406244928832]
提案手法は,評価中のテストよりも,桁違いに多くのクエリに対して潜在的なリスクを予測できる手法である。
我々の予測は、最大3桁のクエリボリュームで、様々な望ましくない振る舞いの出現を予測することができる。
私たちの作業により、モデル開発者は大規模なデプロイメント中に現れる前に、稀な障害を積極的に予測し、パッチを当てることができます。
論文 参考訳(メタデータ) (2025-02-24T03:16:15Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Estimating the Probabilities of Rare Outputs in Language Models [8.585890569162267]
小型変圧器言語モデルからのargmaxサンプリングの文脈における低確率推定について検討した。
その結果、重要サンプリングはアクティベーション外挿より優れるが、どちらもナイーブサンプリングより優れていることがわかった。
低確率推定のための新しい手法は、最悪の場合の性能についてより強力な保証を提供するために必要である、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-17T04:31:18Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Robust Out-of-Distribution Detection on Deep Probabilistic Generative
Models [0.06372261626436676]
アウト・オブ・ディストリビューション(OOD)検出は機械学習システムにおいて重要な課題である。
深い確率的生成モデルは、データサンプルの可能性を推定することによって、OODの検出を容易にする。
本稿では,外周露光を伴わない新しい検出指標を提案する。
論文 参考訳(メタデータ) (2021-06-15T06:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。