論文の概要: The Instability of Safety: How Random Seeds and Temperature Expose Inconsistent LLM Refusal Behavior
- arxiv url: http://arxiv.org/abs/2512.12066v2
- Date: Tue, 16 Dec 2025 03:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.939047
- Title: The Instability of Safety: How Random Seeds and Temperature Expose Inconsistent LLM Refusal Behavior
- Title(参考訳): 安全の不安定性:無作為種子と温度が不整合LLM拒絶挙動をいかに表すか
- Authors: Erik Larsen,
- Abstract要約: 大規模な言語モデルの現在の安全性評価は単発テストに依存している。
本研究では,無作為種子と温度設定の安全性判定の安定性について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current safety evaluations of large language models rely on single-shot testing, implicitly assuming that model responses are deterministic and representative of the model's safety alignment. We challenge this assumption by investigating the stability of safety refusal decisions across random seeds and temperature settings. Testing four instruction-tuned models from three families (Llama 3.1 8B, Qwen 2.5 7B, Qwen 3 8B, Gemma 3 12B) on 876 harmful prompts across 20 different sampling configurations (4 temperatures x 5 random seeds), we find that 18-28% of prompts exhibit decision flips--the model refuses in some configurations but complies in others--depending on the model. Our Safety Stability Index (SSI) reveals that higher temperatures significantly reduce decision stability (Friedman chi-squared = 396.81, p < 0.001), with mean within-temperature SSI dropping from 0.977 at temperature 0.0 to 0.942 at temperature 1.0. We validate our findings across all model families using Claude 3.5 Haiku as a unified external judge, achieving 89.0% inter-judge agreement with our primary Llama 70B judge (Cohen's kappa = 0.62). Within each model, prompts with higher compliance rates exhibit lower stability (Spearman rho = -0.47 to -0.70, all p < 0.001), indicating that models "waver" more on borderline requests. These findings demonstrate that single-shot safety evaluations are insufficient for reliable safety assessment and that evaluation protocols must account for stochastic variation in model behavior. We show that single-shot evaluation agrees with multi-sample ground truth only 92.4% of the time when pooling across temperatures (94.2-97.7% at fixed temperature depending on setting), and recommend using at least 3 samples per prompt for reliable safety assessment.
- Abstract(参考訳): 大規模言語モデルの現在の安全性評価は単発テストに依存しており、モデル応答が決定論的であり、モデルの安全性の整合性を表すことを暗黙的に仮定している。
この仮定は、ランダムな種子と温度設定の安全拒否決定の安定性を調査することによって、この仮定に挑戦する。
Llama 3.1 8B, Qwen 2.5 7B, Qwen 3 8B, Gemma 3 12B)を20種類のサンプリング構成(4温度×5ランダムシード)にまたがる有害なプロンプトに対して4種類の命令調整モデル(Llama 3.1 8B, Qwen 2.5 7B, Qwen 3 8B, Gemma 3 12B)を試験したところ、18-28%のプロンプトが決定フリップを示すことがわかった。
我々の安全安定指数(SSI)は、高温が決定安定性を著しく低下させることを示した(Friedman chi-squared = 396.81, p < 0.001)。
我々は,Claude 3.5 Haikuを統一外部判断器として使用し,Llama 70Bと89.0%の意見交換(Cohen's kappa = 0.62)を行った。
各モデルにおいて、より高いコンプライアンス率のプロンプトはより低い安定性を示す(Spearman rho = -0.47 to -0.70, all p < 0.001)。
これらの結果から,シングルショット安全性評価は信頼性の高い安全性評価には不十分であり,評価プロトコルはモデル行動の確率的変動を考慮しなければならないことが示された。
単発評価が複数サンプルの地平の真理に一致するのは、温度をまたいでプールする時間(設定に応じて94.2~97.7%)の92.4%に過ぎず、信頼性の高い安全評価のために1回あたり少なくとも3つのサンプルを使用することを推奨している。
関連論文リスト
- Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems [0.29465623430708904]
未校正スコアは選好を逆転させることができ、未校正スコアに対するナイーブな信頼区間は、ほぼ0%のカバレッジを獲得し、重要度重み付け推定器は、限られた重複の下で崩壊する。
3つの障害を全て解決するフレームワークであるCausal Judge Evaluationを紹介します。
論文 参考訳(メタデータ) (2025-12-11T22:16:24Z) - Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92% [4.693270291878929]
大規模言語モデル(LLMs)は、流動的だがサポートされていない答え、幻覚を生み出す。
ECLIPSEは,モデルの意味エントロピーと利用可能な証拠の容量とのミスマッチとして幻覚を扱うフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T05:25:48Z) - VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety [3.1109025622085693]
マルチモーダル安全性を評価する包括的フレームワークであるVision Language Safety Understandingを提案する。
11種類の最先端モデルについて評価した結果, 系統的な共同理解の失敗が判明した。
我々のフレームワークは、現在のモデルにおける共同画像テキスト理解とアライメントギャップの弱点を明らかにする。
論文 参考訳(メタデータ) (2025-10-21T01:30:31Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic
Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文 参考訳(メタデータ) (2022-10-12T07:57:03Z) - A Bayesian Monte-Carlo Uncertainty Model for Assessment of Shear Stress
Entropy [0.0]
本稿では, シャノン, シャノンパワーロー (PL), ツァリ, レニの4つのエントロピーモデルのせん断応力推定における不確実性を評価する新しい手法を提案する。
FREEopt-based OCB (FOCB) と呼ばれる新しい統計指標を開発した。
シャノンとシャノンPLエントロピーは、円チャネルにおけるせん断応力値の計算において最も確実であり、その後に従来の一様流れせん断応力と密接な値を持つツァリス模型が続いた。
論文 参考訳(メタデータ) (2020-01-10T22:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。