論文の概要: Evaluating Large Language Models for Security Bug Report Prediction
- arxiv url: http://arxiv.org/abs/2601.22921v1
- Date: Fri, 30 Jan 2026 12:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.442255
- Title: Evaluating Large Language Models for Security Bug Report Prediction
- Title(参考訳): セキュリティバグレポート予測のための大規模言語モデルの評価
- Authors: Farnaz Soltaniani, Shoaib Razzaq, Mohammad Ghafari,
- Abstract要約: セキュリティバグレポート(SBR)の早期検出は、タイムリーな脆弱性軽減に不可欠である。
本稿では,SBRの予測手法として,プロンプトベースエンジニアリングと微調整手法の評価を行う。
- 参考スコア(独自算出の注目度): 1.529342790344802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early detection of security bug reports (SBRs) is critical for timely vulnerability mitigation. We present an evaluation of prompt-based engineering and fine-tuning approaches for predicting SBRs using Large Language Models (LLMs). Our findings reveal a distinct trade-off between the two approaches. Prompted proprietary models demonstrate the highest sensitivity to SBRs, achieving a G-measure of 77% and a recall of 74% on average across all the datasets, albeit at the cost of a higher false-positive rate, resulting in an average precision of only 22%. Fine-tuned models, by contrast, exhibit the opposite behavior, attaining a lower overall G-measure of 51% but substantially higher precision of 75% at the cost of reduced recall of 36%. Though a one-time investment in building fine-tuned models is necessary, the inference on the largest dataset is up to 50 times faster than that of proprietary models. These findings suggest that further investigations to harness the power of LLMs for SBR prediction are necessary.
- Abstract(参考訳): セキュリティバグレポート(SBR)の早期検出は、タイムリーな脆弱性軽減に不可欠である。
本稿では,Large Language Models (LLMs) を用いたSBRの予測のための,プロンプトベースエンジニアリングと微調整手法の評価を行う。
この2つのアプローチの間には,明確なトレードオフがあることが判明した。
プロプライエタリなモデルでは、SBRに対する感度が最も高く、77%のG測定値と74%のリコールを全データセットで達成しているが、偽陽性率は高く、平均精度は22%に過ぎなかった。
対照的に、微調整されたモデルでは、G値が51%低いが、36%のリコールコストで75%の精度で、逆の挙動を示す。
微調整モデルの構築に1回投資する必要があるが、最大のデータセットの推測はプロプライエタリモデルよりも最大50倍高速である。
これらの結果は,LSMのパワーをSBR予測に活用するためのさらなる調査が必要であることを示唆している。
関連論文リスト
- Bayesian-LoRA: Probabilistic Low-Rank Adaptation of Large Language Models [5.653755499165773]
本稿では,Sparse Gaussian Processesにインスパイアされた確率的低ランク表現として,決定論的LoRA更新を再構成するBayesian-LoRAを紹介する。
約0.42Mの追加パラメータと$approx1.2timesのトレーニングコストを標準のLoRAと比較すると、Bayesian-LoRAは最大30Bまでのモデルのキャリブレーションを大幅に改善した。
論文 参考訳(メタデータ) (2026-01-28T19:54:31Z) - Security Bug Report Prediction Within and Across Projects: A Comparative Study of BERT and Random Forest [0.08192907805418582]
セキュリティバグレポート(SBR)の早期検出は、脆弱性の防止とシステムの信頼性確保に不可欠である。
本研究では,SBR予測のための競争基準であるBERTとRandom Forest(RF)を比較した。
プロジェクト間SBR予測では、BERTはRFよりもかなり高い62%のG測定を達成している。
論文 参考訳(メタデータ) (2025-04-28T06:09:01Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - BEA: Revisiting anchor-based object detection DNN using Budding Ensemble
Architecture [8.736601342033431]
Budding Ensemble Architecture(BEA)は、アンカーベースのオブジェクト検出モデルのための、新しい縮小アンサンブルアーキテクチャである。
BEAにおける損失関数は、信頼性スコアの校正を改善し、不確かさを低減させる。
論文 参考訳(メタデータ) (2023-09-14T21:54:23Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。