論文の概要: Evaluating LLM Safety Under Repeated Inference via Accelerated Prompt Stress Testing
- arxiv url: http://arxiv.org/abs/2602.11786v1
- Date: Thu, 12 Feb 2026 10:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.76184
- Title: Evaluating LLM Safety Under Repeated Inference via Accelerated Prompt Stress Testing
- Title(参考訳): 加速プロンプト応力試験による繰り返し推論によるLCMの安全性評価
- Authors: Keita Broadwater,
- Abstract要約: 信頼性工学にインスパイアされた深度指向評価フレームワークであるAPST(Accelerated Prompt Stress Testing)を紹介する。
APSTは、制御された運用条件下で同じプロンプトを繰り返しサンプリングし、遅延故障モードを発生させる。
同様のベンチマークアライメントスコアを持つモデルでは,繰り返しサンプリングを行うと,経験的失敗率が大きく異なることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional benchmarks for large language models (LLMs) primarily assess safety risk through breadth-oriented evaluation across diverse tasks. However, real-world deployment exposes a different class of risk: operational failures arising from repeated inference on identical or near-identical prompts rather than broad task generalization. In high-stakes settings, response consistency and safety under sustained use are critical. We introduce Accelerated Prompt Stress Testing (APST), a depth-oriented evaluation framework inspired by reliability engineering. APST repeatedly samples identical prompts under controlled operational conditions (e.g., decoding temperature) to surface latent failure modes including hallucinations, refusal inconsistency, and unsafe completions. Rather than treating failures as isolated events, APST models them as stochastic outcomes of independent inference events. We formalize safety failures using Bernoulli and binomial models to estimate per-inference failure probabilities, enabling quantitative comparison of reliability across models and decoding configurations. Applying APST to multiple instruction-tuned LLMs evaluated on AIR-BENCH-derived safety prompts, we find that models with similar benchmark-aligned scores can exhibit substantially different empirical failure rates under repeated sampling, particularly as temperature increases. These results demonstrate that shallow, single-sample evaluation can obscure meaningful reliability differences under sustained use. APST complements existing benchmarks by providing a practical framework for evaluating LLM safety and reliability under repeated inference, bridging benchmark alignment and deployment-oriented risk assessment.
- Abstract(参考訳): 大規模言語モデル(LLM)の伝統的なベンチマークは、主に多様なタスクにわたる幅指向の評価を通じて安全性のリスクを評価する。
しかし、現実のデプロイメントは異なる種類のリスクを露呈する: 広いタスクの一般化ではなく、同一またはほぼ同一のプロンプトに対する繰り返しの推論による運用上の失敗である。
高精細な設定では、持続使用時の応答一貫性と安全性が重要になります。
信頼性工学にインスパイアされた深度指向評価フレームワークであるAPST(Accelerated Prompt Stress Testing)を紹介する。
APSTは、制御された操作条件(例えばデコード温度)の下で同じプロンプトを繰り返しサンプリングし、幻覚、不整合、安全でない完了を含む遅延障害モードを発生させる。
障害を独立したイベントとして扱うのではなく、APSTはそれらを独立した推論イベントの確率的な結果としてモデル化する。
我々はBernoulliモデルとbinomialモデルを用いて安全性障害を形式化し、参照当たりの故障確率を推定し、モデル間の信頼性と復号化構成の定量的比較を可能にする。
AIR-BENCHをベースとした安全プロンプトで評価した複数の命令調整LDMにAPSTを適用すると、同様のベンチマークアライメントスコアを持つモデルでは、特に温度が上昇するにつれて、繰り返しサンプリングの下でかなり異なる経験的故障率を示すことが分かる。
これらの結果から, 単一サンプルの浅部評価は, 持続的使用下での信頼性の相違が明らかになることが示唆された。
APSTは、繰り返し推論、ブリッジングベンチマークアライメント、デプロイメント指向のリスクアセスメントの下でLLMの安全性と信頼性を評価するための実践的なフレームワークを提供することで、既存のベンチマークを補完する。
関連論文リスト
- CausalCompass: Evaluating the Robustness of Time-Series Causal Discovery in Misspecified Scenarios [17.11442807888366]
Causalは、時系列因果発見法の堅牢性を評価するために設計されたベンチマークスイートである。
我々は8つの仮定違反シナリオにまたがる代表的なTSCDアルゴリズムの広範なベンチマークを行う。
様々なシナリオで優れた全体的なパフォーマンスを示す方法は、ほとんどディープラーニングベースのアプローチである。
論文 参考訳(メタデータ) (2026-02-08T11:27:06Z) - NegBLEURT Forest: Leveraging Inconsistencies for Detecting Jailbreak Attacks [8.416892421891761]
安全メカニズムをバイパスするために設計された脱獄攻撃は、倫理的ガイドラインに従っているにもかかわらず、LLMに有害または不適切なコンテンツを生成するよう促すことで深刻な脅威となる。
この研究は、成功と失敗の間のセマンティックな一貫性分析を導入し、否定を意識したスコアリングアプローチが意味のあるパターンをキャプチャすることを示した。
NegBLEURT Forestと呼ばれる新しい検出フレームワークが提案され、敵のプロンプトによって引き起こされる出力と期待される安全行動の間のアライメントの程度を評価する。
アイソレーションフォレストアルゴリズムを用いて異常応答を特定し、信頼性の高いジェイルブレイク検出を可能にする。
論文 参考訳(メタデータ) (2025-11-14T14:43:54Z) - Beyond Over-Refusal: Scenario-Based Diagnostics and Post-Hoc Mitigation for Exaggerated Refusals in LLMs [10.896368527058714]
大きな言語モデル(LLM)は、しばしば偽の拒絶を発生させ、安全でないクエリに似た用語を含む良質な要求を減少させる。
単一ターンプロンプトに対するXSB(Exaggerated Safety Benchmark)、リファイン誘導トリガを識別する"Focus"キーワードのアノテーション、マルチターンシナリオベースのExaggerated Safety Benchmark(MS-XSB)の2つの総合ベンチマークを紹介した。
ベンチマークの結果,近年の多種多様なLCMにおいて過大な拒絶が持続し,特に複雑なマルチターンシナリオで顕著であることが判明した。
論文 参考訳(メタデータ) (2025-10-09T12:38:16Z) - Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - On the Need for a Statistical Foundation in Scenario-Based Testing of Autonomous Vehicles [4.342427756164555]
本稿では、これらの課題に対処し、厳密な安全保証を実現するために、厳密な統計基盤が不可欠であると主張している。
AVテストと確立されたソフトウェアテスト手法の並列性によって、共有研究ギャップと再利用可能なソリューションを特定します。
分析の結果,シナリオベースでもマイルベースのテストでも,どちらよりも優れていないことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-04T22:06:23Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic
Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文 参考訳(メタデータ) (2022-10-12T07:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。