論文の概要: Towards Reliable and Practical LLM Security Evaluations via Bayesian Modelling
- arxiv url: http://arxiv.org/abs/2510.05709v1
- Date: Tue, 07 Oct 2025 09:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.179018
- Title: Towards Reliable and Practical LLM Security Evaluations via Bayesian Modelling
- Title(参考訳): ベイジアンモデリングによるLLMの信頼性・実用性評価に向けて
- Authors: Mary Llewellyn, Annie Gray, Josh Collyer, Michael Harries,
- Abstract要約: 新しい大規模言語モデル(LLM)アーキテクチャを採用する前に、脆弱性を正確に理解することが重要である。
既存の評価を信頼することは困難であり、しばしばLLMから結論を導き出す。
インジェクション攻撃の迅速化を目的としたLCM脆弱性評価のための,原則的かつ実用的なエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.0266286487433585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Before adopting a new large language model (LLM) architecture, it is critical to understand vulnerabilities accurately. Existing evaluations can be difficult to trust, often drawing conclusions from LLMs that are not meaningfully comparable, relying on heuristic inputs or employing metrics that fail to capture the inherent uncertainty. In this paper, we propose a principled and practical end-to-end framework for evaluating LLM vulnerabilities to prompt injection attacks. First, we propose practical approaches to experimental design, tackling unfair LLM comparisons by considering two practitioner scenarios: when training an LLM and when deploying a pre-trained LLM. Second, we address the analysis of experiments and propose a Bayesian hierarchical model with embedding-space clustering. This model is designed to improve uncertainty quantification in the common scenario that LLM outputs are not deterministic, test prompts are designed imperfectly, and practitioners only have a limited amount of compute to evaluate vulnerabilities. We show the improved inferential capabilities of the model in several prompt injection attack settings. Finally, we demonstrate the pipeline to evaluate the security of Transformer versus Mamba architectures. Our findings show that consideration of output variability can suggest less definitive findings. However, for some attacks, we find notably increased Transformer and Mamba-variant vulnerabilities across LLMs with the same training data or mathematical ability.
- Abstract(参考訳): 新しい大規模言語モデル(LLM)アーキテクチャを採用する前に、脆弱性を正確に理解することが重要である。
既存の評価は信頼が難しい場合があり、しばしば、有意義に比較できないLCMから結論を導き、ヒューリスティックなインプットに依存したり、固有の不確実性を捉えるのに失敗するメトリクスを採用する。
本稿では,LDMの脆弱性を解析し,インジェクション攻撃の迅速化を図るための,原則的かつ実用的なエンドツーエンドフレームワークを提案する。
まず,LLMをトレーニングする場合と,事前学習したLLMをデプロイする場合の2つのシナリオを考慮し,不公平なLLM比較に対処する,実験設計への実践的アプローチを提案する。
第二に,実験の解析に対処し,埋め込み空間クラスタリングを用いたベイズ階層モデルを提案する。
このモデルは、LCM出力が決定論的ではなく、テストプロンプトが不完全な設計であり、実践者は脆弱性を評価するために限られた計算量しか持たないという一般的なシナリオにおける不確実性定量化を改善するように設計されている。
いくつかのインジェクション・アタック・セッティングにおいて,モデルの推論能力の向上を示す。
最後に,TransformerとMambaアーキテクチャのセキュリティを評価するパイプラインを実演する。
以上の結果から, 出力変動の考慮は, 明確な結果が得られないことが示唆された。
しかし、いくつかの攻撃では、同じトレーニングデータや数学的能力を持つLSM全体のTransformerとMambaの脆弱性が顕著に増加した。
関連論文リスト
- Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - UBench: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
大規模言語モデル(LLM)の不確実性を評価するための新しいベンチマークであるUBenchを紹介する。
他のベンチマークとは異なり、UBenchは信頼区間に基づいている。知識、言語、理解、推論能力にまたがる11,978の多重選択質問を含んでいる。
1) 信頼性区間に基づく手法は不確実性定量化に極めて有効である; 2) 不確実性に関して、優れたオープンソースモデルは、クローズドソースモデルと競合する性能を示す; 3) CoT と RP は、モデル信頼性を改善するための潜在的方法を示し、温度変化の影響は普遍的な規則に従わない。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。