論文の概要: SastBench: A Benchmark for Testing Agentic SAST Triage
- arxiv url: http://arxiv.org/abs/2601.02941v1
- Date: Tue, 06 Jan 2026 11:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.909987
- Title: SastBench: A Benchmark for Testing Agentic SAST Triage
- Title(参考訳): SastBench: エージェントのSASTトリアージをテストするベンチマーク
- Authors: Jake Feiglin, Guy Dar,
- Abstract要約: SastBenchは、実CVEを真正値、フィルターしたSASTツールを近似偽正値として組み合わせたSASTトリアージエージェントを評価するためのベンチマークである。
ベンチマークで異なるエージェントを評価し,その性能の比較分析を行った。
- 参考スコア(独自算出の注目度): 3.1175243456844832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SAST (Static Application Security Testing) tools are among the most widely used techniques in defensive cybersecurity, employed by commercial and non-commercial organizations to identify potential vulnerabilities in software. Despite their great utility, they generate numerous false positives, requiring costly manual filtering (aka triage). While LLM-powered agents show promise for automating cybersecurity tasks, existing benchmarks fail to emulate real-world SAST finding distributions. We introduce SastBench, a benchmark for evaluating SAST triage agents that combines real CVEs as true positives with filtered SAST tool findings as approximate false positives. SastBench features an agent-agnostic design. We evaluate different agents on the benchmark and present a comparative analysis of their performance, provide a detailed analysis of the dataset, and discuss the implications for future development.
- Abstract(参考訳): SAST(Static Application Security Testing)ツールは、商用および非商用組織がソフトウェアの潜在的な脆弱性を特定するために使用する、防衛サイバーセキュリティにおいて最も広く使用されているテクニックのひとつである。
優れた実用性にもかかわらず、多くの偽陽性を生成し、高価な手動フィルタリング(トリアージ)を必要とする。
LLMのエージェントはサイバーセキュリティタスクの自動化を約束するが、既存のベンチマークは現実世界のSAST発見分布をエミュレートすることができない。
実CVEを真正値、フィルタしたSASTツールを近似偽正値として組み合わせたSASTトリアージエージェントの評価ベンチマークであるSastBenchを紹介する。
SastBenchはエージェントに依存しない設計である。
我々は,ベンチマーク上で異なるエージェントを評価し,その性能の比較分析を行い,データセットの詳細な分析を行い,今後の発展への影響について論じる。
関連論文リスト
- ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。
我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文 参考訳(メタデータ) (2025-03-12T14:30:05Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - A Comprehensive Study on Static Application Security Testing (SAST) Tools for Android [22.558610938860124]
VulsTotalは、ツールがサポートする脆弱性タイプを定義し記述するための統合評価プラットフォームである。
我々は97のオプションのプールから11のオープンソースSASTツールを選択し、明確に定義された基準に従っています。
次に、Android SASTツールの一般/一般的な脆弱性タイプ67を統一します。
論文 参考訳(メタデータ) (2024-10-28T05:10:22Z) - Comparison of Static Application Security Testing Tools and Large Language Models for Repo-level Vulnerability Detection [11.13802281700894]
静的アプリケーションセキュリティテスト(SAST)は通常、セキュリティ脆弱性のソースコードをスキャンするために使用される。
ディープラーニング(DL)ベースの手法は、ソフトウェア脆弱性検出の可能性を実証している。
本稿では,ソフトウェア脆弱性を検出するために,15種類のSASTツールと12種類の最先端のオープンソースLLMを比較した。
論文 参考訳(メタデータ) (2024-07-23T07:21:14Z) - An Extensive Comparison of Static Application Security Testing Tools [1.3927943269211593]
静的アプリケーションセキュリティテストツール(SASTT)は、ソフトウェアアプリケーションのセキュリティと信頼性をサポートするソフトウェア脆弱性を特定する。
いくつかの研究は、偽アラームを発生させる傾向があるため、代替ソリューションがSASTTよりも効果的である可能性を示唆している。
SASTTの評価は、制御されているが合成されたJavaに基づいています。
論文 参考訳(メタデータ) (2024-03-14T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。