論文の概要: Diverse LLMs vs. Vulnerabilities: Who Detects and Fixes Them Better?
- arxiv url: http://arxiv.org/abs/2512.12536v1
- Date: Sun, 14 Dec 2025 03:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.300665
- Title: Diverse LLMs vs. Vulnerabilities: Who Detects and Fixes Them Better?
- Title(参考訳): 異種LSM vs. 脆弱性:誰がその問題をよりよく検出し、修正するか?
- Authors: Arastoo Zibaeirad, Marco Vieira,
- Abstract要約: DVDR-LLMは様々な大きな言語モデルの出力を組み合わせたアンサンブルフレームワークである。
評価の結果,DVDR-LLMは個々のモデルの平均性能よりも10-12%高い検出精度を示した。
- 参考スコア(独自算出の注目度): 1.0026496861838445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly being studied for Software Vulnerability Detection (SVD) and Repair (SVR). Individual LLMs have demonstrated code understanding abilities, but they frequently struggle when identifying complex vulnerabilities and generating fixes. This study presents DVDR-LLM, an ensemble framework that combines outputs from diverse LLMs to determine whether aggregating multiple models reduces error rates. Our evaluation reveals that DVDR-LLM achieves 10-12% higher detection accuracy compared to the average performance of individual models, with benefits increasing as code complexity grows. For multi-file vulnerabilities, the ensemble approach demonstrates significant improvements in recall (+18%) and F1 score (+11.8%) over individual models. However, the approach raises measurable trade-offs: reducing false positives in verification tasks while simultaneously increasing false negatives in detection tasks, requiring careful decision on the required level of agreement among the LLMs (threshold) for increased performance across different security contexts. Artifact: https://github.com/Erroristotle/DVDR_LLM
- Abstract(参考訳): 大規模言語モデル (LLM) はソフトウェア脆弱性検出 (SVD) と修復 (SVR) のために研究されている。
個々のLSMはコード理解能力を示してきたが、複雑な脆弱性を特定し、修正を生成するのにしばしば苦労している。
本研究は,複数モデルの集約が誤り率を減少させるか否かを判断するために,多様なLCMから出力を合成するアンサンブルフレームワークであるDVDR-LLMを提案する。
評価の結果,DVDR-LLMは個々のモデルの平均性能よりも10~12%高い検出精度を達成でき,コードの複雑さが増大するにつれてメリットが増大することがわかった。
マルチファイル脆弱性に対して、アンサンブルアプローチは、個々のモデルよりもリコール(+18%)とF1スコア(+11.8%)が大幅に改善されている。
しかし、このアプローチは、検証タスクにおける偽陽性を減らし、同時に検出タスクにおける偽陰性を増大させ、異なるセキュリティコンテキストにおけるパフォーマンスの向上のために、LLM(Threshold)間で必要な合意のレベルを慎重に決定する必要がある、という測定可能なトレードオフを生じさせる。
Artifact: https://github.com/Erroristotle/DVDR_LLM
関連論文リスト
- Large Language Model based Smart Contract Auditing with LLMBugScanner [16.70822025530469]
スマートコントラクト監査による大規模言語モデル(LLM)の課題
すべての脆弱性タイプやコントラクト構造に対して一貫して機能するモデルは存在しない。
LLMBugScannerは、ドメイン知識適応とアンサンブル推論を組み合わせることで、堅牢性と一般化を改善する。
論文 参考訳(メタデータ) (2025-11-29T19:13:44Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。
このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。
Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文 参考訳(メタデータ) (2025-03-22T23:59:17Z) - Watson: A Cognitive Observability Framework for the Reasoning of LLM-Powered Agents [5.993182776695028]
大規模言語モデル(LLM)は、ますます自律システムに統合され、Agentwareと呼ばれる新しい種類のソフトウェアを生み出している。
本稿では,エージェント決定の背後にある暗黙の推論を回復し,検査する能力である認知的可観測性の概念を紹介する。
本稿では,LLMエージェントの行動変化を伴わない推論過程を観察するフレームワークであるWatsonについて述べる。
論文 参考訳(メタデータ) (2024-11-05T19:13:22Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。