論文の概要: Evaluating the efficacy of LLM Safety Solutions : The Palit Benchmark Dataset
- arxiv url: http://arxiv.org/abs/2505.13028v2
- Date: Tue, 20 May 2025 07:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.45145
- Title: Evaluating the efficacy of LLM Safety Solutions : The Palit Benchmark Dataset
- Title(参考訳): LLM安全ソリューションの有効性評価 : Palitベンチマークデータセット
- Authors: Sayon Palit, Daniel Woods,
- Abstract要約: 大規模言語モデル(LLM)は、医療や金融といった産業において、ますます重要なシステムに統合されている。
これにより、ユーザが悪意のあるクエリを送信し、LLMシステムは所有者に害を与える応答を出力する、さまざまな攻撃が発生する。
これらの脅威に対抗するためにセキュリティツールが開発されているが、その有効性とユーザビリティの正式な評価はほとんどない。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into critical systems in industries like healthcare and finance. Users can often submit queries to LLM-enabled chatbots, some of which can enrich responses with information retrieved from internal databases storing sensitive data. This gives rise to a range of attacks in which a user submits a malicious query and the LLM-system outputs a response that creates harm to the owner, such as leaking internal data or creating legal liability by harming a third-party. While security tools are being developed to counter these threats, there is little formal evaluation of their effectiveness and usability. This study addresses this gap by conducting a thorough comparative analysis of LLM security tools. We identified 13 solutions (9 closed-source, 4 open-source), but only 7 were evaluated due to a lack of participation by proprietary model owners.To evaluate, we built a benchmark dataset of malicious prompts, and evaluate these tools performance against a baseline LLM model (ChatGPT-3.5-Turbo). Our results show that the baseline model has too many false positives to be used for this task. Lakera Guard and ProtectAI LLM Guard emerged as the best overall tools showcasing the tradeoff between usability and performance. The study concluded with recommendations for greater transparency among closed source providers, improved context-aware detections, enhanced open-source engagement, increased user awareness, and the adoption of more representative performance metrics.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療や金融といった産業において、ますます重要なシステムに統合されている。
ユーザはLLM対応のチャットボットにクエリを送信でき、その中には機密データを格納する内部データベースから取得した情報でレスポンスを豊かにするものもある。
これにより、悪意のあるクエリをユーザが送信し、LLMシステムは、内部データを漏洩したり、第三者を傷つけることで法的責任を生じるような、所有者に害を与える応答を出力する。
これらの脅威に対抗するためにセキュリティツールが開発されているが、その有効性とユーザビリティの正式な評価はほとんどない。
本研究では,LLMセキュリティツールの徹底的な比較分析を行うことにより,このギャップに対処する。
我々は、13のソリューション(9つのクローズドソース、4つのオープンソース)を特定しましたが、プロプライエタリなモデルオーナーの参加が欠如しているため、7つしか評価されませんでした。評価のために、悪意のあるプロンプトのベンチマークデータセットを構築し、これらのツールのパフォーマンスをベースラインのLMモデル(ChatGPT-3.5-Turbo)と比較しました。
以上の結果から,ベースラインモデルには偽陽性が多すぎることが示唆された。
Lakera GuardとProtectAI LLM Guardは、ユーザビリティとパフォーマンスのトレードオフを示す最高のツールとして登場した。
調査は、クローズドソースプロバイダ間の透明性向上、コンテキスト認識検出の改善、オープンソースエンゲージメントの向上、ユーザ意識の向上、より代表的なパフォーマンス指標の採用を推奨した。
関連論文リスト
- Large Language Models for In-File Vulnerability Localization Can Be "Lost in the End" [6.6389862916575275]
新しい開発手法では、研究者はLLMが大規模なファイルサイズの入力を効果的に分析できるかどうかを調べる必要がある。
本稿では,GPTモデルを含む,最先端のチャットベースのLLMがファイル内脆弱性の検出に有効であることを示す。
論文 参考訳(メタデータ) (2025-02-09T14:51:15Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Ollabench: Evaluating LLMs' Reasoning for Human-centric Interdependent Cybersecurity [0.0]
大規模言語モデル(LLM)は、複雑な相互依存型サイバーセキュリティシステムを表現することによってエージェントベースモデリングを強化する可能性がある。
既存の評価フレームワークは、しばしば、相互依存型サイバーセキュリティに不可欠なヒューマンファクターと認知コンピューティング能力を見落としている。
シナリオベースの情報セキュリティコンプライアンスや非コンプライアンス問題に答える上で,LLMの正確性,無駄性,一貫性を評価する新しい評価フレームワークであるOllaBenchを提案する。
論文 参考訳(メタデータ) (2024-06-11T00:35:39Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。