論文の概要: Forecasting Rare Language Model Behaviors
- arxiv url: http://arxiv.org/abs/2502.16797v1
- Date: Mon, 24 Feb 2025 03:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:09.558002
- Title: Forecasting Rare Language Model Behaviors
- Title(参考訳): 希少な言語モデル行動の予測
- Authors: Erik Jones, Meg Tong, Jesse Mu, Mohammed Mahfoud, Jan Leike, Roger Grosse, Jared Kaplan, William Fithian, Ethan Perez, Mrinank Sharma,
- Abstract要約: 提案手法は,評価中のテストよりも,桁違いに多くのクエリに対して潜在的なリスクを予測できる手法である。
我々の予測は、最大3桁のクエリボリュームで、様々な望ましくない振る舞いの出現を予測することができる。
私たちの作業により、モデル開発者は大規模なデプロイメント中に現れる前に、稀な障害を積極的に予測し、パッチを当てることができます。
- 参考スコア(独自算出の注目度): 20.712406244928832
- License:
- Abstract: Standard language model evaluations can fail to capture risks that emerge only at deployment scale. For example, a model may produce safe responses during a small-scale beta test, yet reveal dangerous information when processing billions of requests at deployment. To remedy this, we introduce a method to forecast potential risks across orders of magnitude more queries than we test during evaluation. We make forecasts by studying each query's elicitation probability -- the probability the query produces a target behavior -- and demonstrate that the largest observed elicitation probabilities predictably scale with the number of queries. We find that our forecasts can predict the emergence of diverse undesirable behaviors -- such as assisting users with dangerous chemical synthesis or taking power-seeking actions -- across up to three orders of magnitude of query volume. Our work enables model developers to proactively anticipate and patch rare failures before they manifest during large-scale deployments.
- Abstract(参考訳): 標準言語モデル評価は、デプロイメントスケールでのみ発生するリスクを捕捉できない可能性がある。
例えば、モデルが小規模なベータテスト中に安全なレスポンスを生成する場合もありますが、デプロイ時に数十億のリクエストを処理すると、危険な情報が明らかになります。
これを改善するために、評価中にテストするよりも、桁違いに多くのクエリに対して潜在的なリスクを予測する方法を提案する。
それぞれのクエリの推論確率(クエリがターゲットの振る舞いを発生させる確率)を調査して予測を行い、最も大きな観測されたエスカレーション確率がクエリ数で予測可能なスケールであることを実証する。
私たちの予測では、危険な化学合成や電力探究行動でユーザを支援するなど、さまざまな望ましくない行動の出現を最大3桁のクエリボリュームで予測することができます。
私たちの作業により、モデル開発者は大規模なデプロイメント中に現れる前に、稀な障害を積極的に予測し、パッチを当てることができます。
関連論文リスト
- Eliciting Uncertainty in Chain-of-Thought to Mitigate Bias against Forecasting Harmful User Behaviors [29.892041865029803]
会話予測タスクは、展開された会話の結果を予測するモデルである。
ソーシャルメディアのモデレーションに応用すれば、有害なユーザーの行動を予測することができる。
本稿では,潜在的なバイアスを軽減するツールとして,モデルの不確実性がどの程度有効かを検討する。
論文 参考訳(メタデータ) (2024-10-17T15:07:53Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Conformal Prediction with Large Language Models for Multi-Choice
Question Answering [7.049780432343948]
共形予測からの不確実性推定は予測精度と密接に相関していることがわかった。
この研究は、安全クリティカルな状況において、より信頼性が高く信頼性の高い大規模言語モデルの活用に寄与する。
論文 参考訳(メタデータ) (2023-05-28T15:26:10Z) - Predictive Multiplicity in Probabilistic Classification [25.111463701666864]
確率的分類における予測的乗数性を測定するための枠組みを提案する。
実世界のタスクにおける予測多重度の発生頻度と頻度を実証する。
その結果,予測多重度をより広範囲に報告する必要性が強調された。
論文 参考訳(メタデータ) (2022-06-02T16:25:29Z) - Autoregressive Quantile Flows for Predictive Uncertainty Estimation [7.184701179854522]
高次元変数上の確率モデルの柔軟なクラスである自己回帰量子フローを提案する。
これらのモデルは、適切なスコアリングルールに基づいて、新しい目的を用いて訓練された自己回帰フローの例である。
論文 参考訳(メタデータ) (2021-12-09T01:11:26Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - Adversarial Attacks on Probabilistic Autoregressive Forecasting Models [7.305979446312823]
我々は、単一値の列ではなく確率分布の列を出力するニューラルネットワークに対する効果的な逆攻撃を生成する。
提案手法は,2つの課題において,入力摂動の少ない攻撃を効果的に生成できることを実証する。
論文 参考訳(メタデータ) (2020-03-08T13:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。