論文の概要: Statistical Runtime Verification for LLMs via Robustness Estimation
- arxiv url: http://arxiv.org/abs/2504.17723v2
- Date: Thu, 24 Jul 2025 08:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:41.419852
- Title: Statistical Runtime Verification for LLMs via Robustness Estimation
- Title(参考訳): ロバストネス推定によるLLMの統計的実行時検証
- Authors: Natan Levy, Adiel Ashrov, Guy Katz,
- Abstract要約: ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial robustness verification is essential for ensuring the safe deployment of Large Language Models (LLMs) in runtime-critical applications. However, formal verification techniques remain computationally infeasible for modern LLMs due to their exponential runtime and white-box access requirements. This paper presents a case study adapting and extending the RoMA statistical verification framework to assess its feasibility as an online runtime robustness monitor for LLMs in black-box deployment settings. Our adaptation of RoMA analyzes confidence score distributions under semantic perturbations to provide quantitative robustness assessments with statistically validated bounds. Our empirical validation against formal verification baselines demonstrates that RoMA achieves comparable accuracy (within 1\% deviation), and reduces verification times from hours to minutes. We evaluate this framework across semantic, categorial, and orthographic perturbation domains. Our results demonstrate RoMA's effectiveness for robustness monitoring in operational LLM deployments. These findings point to RoMA as a potentially scalable alternative when formal methods are infeasible, with promising implications for runtime verification in LLM-based systems.
- Abstract(参考訳): ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
しかし、形式的検証技術は、その指数的ランタイムとホワイトボックスアクセス要求のため、現代のLLMでは計算不可能なままである。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
我々のRoMAの適応は,意味摂動下での信頼度分布を分析し,統計的に検証された境界を持つ定量的ロバスト性評価を提供する。
形式的検証基準に対する実証的な検証は、RoMAが(偏差1\%で)同等の精度を達成し、検証時間を数時間から数分に短縮することを示す。
我々は,この枠組みを意味的・分類的・正統的な摂動領域にまたがって評価する。
実運用LLMにおけるロマのロバスト性モニタリングの有効性を実証した。
これらの結果は,形式的手法が実現不可能な場合,RoMAが潜在的にスケーラブルな代替手段であることを示している。
関連論文リスト
- Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models [13.216398753024182]
大言語モデル(LLM)と視覚言語モデル(VLM)は、汎用人工知能にとって欠かせないものとなっている。
本稿では,情報幾何学に根ざした統計的手法に着想を得たLSMの新しい安定性尺度を提案する。
提案手法は,入力画像中の有害領域やトークン埋め込みにおける臨界次元の検出に有効であることを示す。
論文 参考訳(メタデータ) (2025-03-28T16:23:59Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Bridging Interpretability and Robustness Using LIME-Guided Model Refinement [0.0]
LIME(Local Interpretable Model-Agnostic Explanations)は、モデルロバスト性を体系的に強化する。
複数のベンチマークデータセットに対する実証的な評価は、LIME誘導の洗練は解釈可能性を改善するだけでなく、敵の摂動に対する耐性を著しく向上し、アウト・オブ・ディストリビューションデータへの一般化を促進することを示している。
論文 参考訳(メタデータ) (2024-12-25T17:32:45Z) - On Adversarial Robustness and Out-of-Distribution Robustness of Large Language Models [0.16874375111244325]
大規模言語モデル(LLM)における対向ロバストネスとOODロバストネスの相関について検討する。
以上の結果より, 対向ロバスト性とOODロバスト性との間にはニュアンスな相互作用がみられ, 移動性に限界があることが示唆された。
これらの相互作用を、より大きなモデルと様々なアーキテクチャにわたって評価するためには、さらなる研究が必要である。
論文 参考訳(メタデータ) (2024-12-13T20:04:25Z) - Is it the model or the metric -- On robustness measures of deeplearning models [2.8169948004297565]
ディープフェイク検出の文脈におけるロバスト精度(RA)の正当性について再検討する。
本稿では, RAとRRの比較を行い, モデル間の類似のRAにもかかわらず, モデルが異なる許容レベル(摂動レベル)でRRが変化することを示した。
論文 参考訳(メタデータ) (2024-12-13T02:26:58Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - RoAST: Robustifying Language Models via Adversarial Perturbation with
Selective Training [105.02614392553198]
選択的トレーニング(RoAST)を用いた逆方向摂動を用いたロバスト化法を提案する。
RoASTは、モデルの堅牢性、摂動入力に対する堅牢性、および事前訓練されたLMにおける一般化可能な知識の2つの重要な情報源を組み込んでいる。
6種類のLM上での最先端の微調整法と比較して,RoASTの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-07T04:23:36Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。