Fugu-MT 論文翻訳(概要): Evaluating Reliability Gaps in Large Language Model Safety via Repeated Prompt Sampling

論文の概要: Evaluating Reliability Gaps in Large Language Model Safety via Repeated Prompt Sampling

arxiv url: http://arxiv.org/abs/2604.09606v1
Date: Tue, 10 Mar 2026 20:23:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-19 19:09:11.54801
Title: Evaluating Reliability Gaps in Large Language Model Safety via Repeated Prompt Sampling
Title（参考訳）: 繰り返しプロンプトサンプリングによる大規模言語モデルの安全性評価
Authors: Keita Broadwater,
Abstract要約: 信頼性工学において,高度に加速された応力試験にインスパイアされた深度指向評価フレームワークであるAPST(Accelerated Prompt Stress Testing)を紹介する。 APSTは、温度変化や急激な摂動を含む、制御された操作条件下で同じプロンプトを繰り返しサンプリングすることで、振る舞いを調査する。本研究では,Bernoulli と binomial を用いた安全故障を観測し,予測故障確率を推定し,モデルと構成間の運用リスクの定量的比較を可能にする。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional benchmarks for large language models (LLMs), such as HELM and AIR-BENCH, primarily assess safety risk through breadth-oriented evaluation across diverse tasks. However, real-world deployment often exposes a different class of risk: operational failures arising from repeated generations of the same prompt rather than broad task generalization. In high-stakes settings, response consistency and safety under repeated use are critical operational requirements. We introduce Accelerated Prompt Stress Testing (APST), a depth-oriented evaluation framework inspired by highly accelerated stress testing in reliability engineering. APST probes LLM behavior by repeatedly sampling identical prompts under controlled operational conditions, including temperature variation and prompt perturbation, to surface latent failure modes such as hallucinations, refusal inconsistency, and unsafe completions. Rather than treating failures as isolated events, APST characterizes them statistically as stochastic outcomes of repeated inference. We model observed safety failures using Bernoulli and binomial formulations to estimate per-inference failure probabilities, enabling quantitative comparison of operational risk across models and configurations. We apply APST to multiple instruction-tuned LLMs evaluated on AIR-BENCH 2024 derived safety and security prompts. While models exhibit similar performance under conventional single- or very-low-sample evaluation (N <= 3), repeated sampling reveals substantial variation in empirical failure probabilities across temperatures. These results demonstrate that shallow benchmark scores can obscure meaningful differences in reliability under sustained use.
Abstract（参考訳）: HELMやAIR-BENCHのような大規模言語モデル(LLM)の伝統的なベンチマークは、主に多様なタスクにわたる幅指向の評価を通じて安全性のリスクを評価する。しかしながら、現実のデプロイメントでは、広範囲なタスクの一般化ではなく、同じプロンプトの繰り返し発生した運用上の失敗という、さまざまな種類のリスクが露呈することが多い。高精細な設定では、繰り返し使用されるレスポンスの一貫性と安全性が重要な運用要件である。信頼性工学において,高度に加速された応力試験にインスパイアされた深度指向評価フレームワークであるAPST(Accelerated Prompt Stress Testing)を紹介する。 APSTは、温度変化や急激な摂動を含む制御された操作条件下で同じプロンプトを繰り返しサンプリングし、幻覚、不整合、安全でない完了などの遅延障害モードを表面的に検出する。障害を孤立したイベントとして扱うのではなく、APSTは、繰り返し推論の確率的な結果として統計的に特徴付けている。本研究では,Bernoulli と binomial を用いて安全故障を観測し,予測故障確率を推定し,モデルと構成間の運用リスクの定量的比較を可能にする。本稿では,AIR-BENCH 2024に基づく安全性とセキュリティのプロンプトに基づいて評価した複数の命令調整LDMにAPSTを適用した。モデルでは, 従来の単サンプルまたは極低サンプル評価(N<=3)では同様の性能を示すが, 繰り返しサンプリングの結果, 温度差による経験的故障確率のかなりの変動が明らかとなった。これらの結果から,持続的使用時の信頼性に有意な差があることが示唆された。

関連論文リスト

Adversarial Moral Stress Testing of Large Language Models [6.225703352031606]
本稿では, 対人多ラウンド相互作用下での倫理的堅牢性を評価するためのストレスベース評価フレームワーク, AMSTを紹介する。我々は,LLaMA-3-8B,GPT-4o,DeepSeek-v3を含む最先端LLMにおけるAMSTの評価を行った。
論文参考訳（メタデータ） (2026-04-01T16:34:20Z)
Evaluating LLM Safety Under Repeated Inference via Accelerated Prompt Stress Testing [0.0]
信頼性工学にインスパイアされた深度指向評価フレームワークであるAPST(Accelerated Prompt Stress Testing)を紹介する。 APSTは、制御された運用条件下で同じプロンプトを繰り返しサンプリングし、遅延故障モードを発生させる。同様のベンチマークアライメントスコアを持つモデルでは,繰り返しサンプリングを行うと,経験的失敗率が大きく異なることが判明した。
論文参考訳（メタデータ） (2026-02-12T10:09:13Z)
CausalCompass: Evaluating the Robustness of Time-Series Causal Discovery in Misspecified Scenarios [17.11442807888366]
Causalは、時系列因果発見法の堅牢性を評価するために設計されたベンチマークスイートである。我々は8つの仮定違反シナリオにまたがる代表的なTSCDアルゴリズムの広範なベンチマークを行う。様々なシナリオで優れた全体的なパフォーマンスを示す方法は、ほとんどディープラーニングベースのアプローチである。
論文参考訳（メタデータ） (2026-02-08T11:27:06Z)
ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。 LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文参考訳（メタデータ） (2026-02-02T06:33:22Z)
NegBLEURT Forest: Leveraging Inconsistencies for Detecting Jailbreak Attacks [8.416892421891761]
安全メカニズムをバイパスするために設計された脱獄攻撃は、倫理的ガイドラインに従っているにもかかわらず、LLMに有害または不適切なコンテンツを生成するよう促すことで深刻な脅威となる。この研究は、成功と失敗の間のセマンティックな一貫性分析を導入し、否定を意識したスコアリングアプローチが意味のあるパターンをキャプチャすることを示した。 NegBLEURT Forestと呼ばれる新しい検出フレームワークが提案され、敵のプロンプトによって引き起こされる出力と期待される安全行動の間のアライメントの程度を評価する。アイソレーションフォレストアルゴリズムを用いて異常応答を特定し、信頼性の高いジェイルブレイク検出を可能にする。
論文参考訳（メタデータ） (2025-11-14T14:43:54Z)
Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。 LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文参考訳（メタデータ） (2025-10-09T10:26:58Z)
Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文参考訳（メタデータ） (2025-06-20T17:57:12Z)
Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文参考訳（メタデータ） (2024-09-24T14:52:14Z)
Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文参考訳（メタデータ） (2024-02-27T13:49:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。