論文の概要: Rethinking CyberSecEval: An LLM-Aided Approach to Evaluation Critique
- arxiv url: http://arxiv.org/abs/2411.08813v1
- Date: Wed, 13 Nov 2024 17:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:21.924036
- Title: Rethinking CyberSecEval: An LLM-Aided Approach to Evaluation Critique
- Title(参考訳): サイバーSecEvalを再考する - LLM支援による評価批判へのアプローチ
- Authors: Suhas Hariharan, Zainab Ali Majid, Jaime Raldua Veuthey, Jacob Haimes,
- Abstract要約: 主な欠点は、Metaの方法論の安全性の低いコード検出部分に焦点を当てている。
これらの制限を探索し、LLM支援ベンチマーク分析の試験ケースとして、我々の探索を利用する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A key development in the cybersecurity evaluations space is the work carried out by Meta, through their CyberSecEval approach. While this work is undoubtedly a useful contribution to a nascent field, there are notable features that limit its utility. Key drawbacks focus on the insecure code detection part of Meta's methodology. We explore these limitations, and use our exploration as a test case for LLM-assisted benchmark analysis.
- Abstract(参考訳): サイバーセキュリティ評価分野における重要な開発は、MetaがCyberSecEvalアプローチを通じて実施した作業である。
この研究は、生まれて間もない分野に有用な貢献であることは間違いないが、その実用性を制限する注目すべき特徴がある。
主な欠点は、Metaの方法論の安全性の低いコード検出部分に焦点を当てている。
これらの制限を探索し、LLM支援ベンチマーク分析の試験ケースとして、我々の探索を利用する。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence [0.7499722271664147]
CTIBenchは、CTIアプリケーションにおける大規模言語モデルの性能を評価するために設計されたベンチマークである。
これらのタスクにおけるいくつかの最先端モデルの評価は、CTIコンテキストにおけるその強みと弱みに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-06-11T16:42:02Z) - SECURE: Benchmarking Large Language Models for Cybersecurity [0.6741087029030101]
大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈におけるその強みと弱点に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-30T19:35:06Z) - Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward [9.218557081971708]
大規模言語モデル(LLM)は多くの分野にまたがって広く応用されている。
その限定的な解釈可能性によって、複数の側面からの安全な操作が懸念される。
近年,LLMの品質保証手法の開発が進められている。
論文 参考訳(メタデータ) (2024-04-12T14:55:16Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain [21.825274494004983]
本研究は,中国の公安ドメインであるCPSDbenchに合わせた,特別な評価ベンチマークを構築することを目的とする。
CPSDbenchは、現実世界のシナリオから収集されたパブリックセキュリティに関連するデータセットを統合する。
本研究では,公共の安全に関わるタスクの実行において,LLMの有効性をより正確に定量化するための,革新的な評価指標を提案する。
論文 参考訳(メタデータ) (2024-02-11T15:56:03Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Detecting Misuse of Security APIs: A Systematic Review [5.329280109719902]
セキュリティアプリケーションプログラミングインターフェース(API)は、ソフトウェアセキュリティの確保に不可欠である。
彼らの誤用は脆弱性を導入し、深刻なデータ漏洩と重大な財務損失につながる可能性がある。
本研究は,セキュリティAPIの誤用検出に関する文献を精査し,この重要な領域を包括的に理解する。
論文 参考訳(メタデータ) (2023-06-15T05:53:23Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。