論文の概要: Few-shot learning for security bug report identification
- arxiv url: http://arxiv.org/abs/2601.02971v1
- Date: Tue, 06 Jan 2026 12:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.925521
- Title: Few-shot learning for security bug report identification
- Title(参考訳): セキュリティバグレポートの識別のための少数ショット学習
- Authors: Muhammad Laiq,
- Abstract要約: 本稿では,ラベル付き限られたデータを用いて,セキュリティバグレポートを識別するための数ショットの学習手法を提案する。
文変換器とコントラスト学習とパラメータ効率のよい微調整を組み合わせた,最先端の数ショット学習フレームワークであるSetFitを採用している。
提案手法は,評価されたすべてのデータセットに対して,最大0.865のAUCを達成し,従来のML技術(ベースライン)を上回っている。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Security bug reports require prompt identification to minimize the window of vulnerability in software systems. Traditional machine learning (ML) techniques for classifying bug reports to identify security bug reports rely heavily on large amounts of labeled data. However, datasets for security bug reports are often scarce in practice, leading to poor model performance and limited applicability in real-world settings. In this study, we propose a few-shot learning-based technique to effectively identify security bug reports using limited labeled data. We employ SetFit, a state-of-the-art few-shot learning framework that combines sentence transformers with contrastive learning and parameter-efficient fine-tuning. The model is trained on a small labeled dataset of bug reports and is evaluated on its ability to classify these reports as either security-related or non-security-related. Our approach achieves an AUC of 0.865, at best, outperforming traditional ML techniques (baselines) for all of the evaluated datasets. This highlights the potential of SetFit to effectively identify security bug reports. SetFit-based few-shot learning offers a promising alternative to traditional ML techniques to identify security bug reports. The approach enables efficient model development with minimal annotation effort, making it highly suitable for scenarios where labeled data is scarce.
- Abstract(参考訳): セキュリティバグレポートは、ソフトウェアシステムの脆弱性のウィンドウを最小限に抑えるために、迅速な識別を必要とする。
セキュリティバグレポートを識別するために、バグレポートを分類する従来の機械学習(ML)技術は、大量のラベル付きデータに依存している。
しかし、セキュリティバグレポートのデータセットは、しばしば実践的に不足しており、モデルパフォーマンスが悪く、現実の環境での適用性が制限されている。
本研究では,ラベル付き限られたデータを用いたセキュリティバグレポートを効果的に識別する,数発の学習に基づく手法を提案する。
文変換器とコントラスト学習とパラメータ効率のよい微調整を組み合わせた,最先端の数ショット学習フレームワークであるSetFitを採用している。
このモデルは、小さなラベル付きバグレポートのデータセットに基づいてトレーニングされており、これらのレポートをセキュリティ関連または非セキュリティ関連のいずれかに分類する能力に基づいて評価されている。
提案手法は,評価されたすべてのデータセットに対して,最大0.865のAUCを達成し,従来のML技術(ベースライン)を上回っている。
これは、セキュリティバグレポートを効果的に識別するSetFitの可能性を強調している。
SetFitベースの数ショット学習は、セキュリティバグレポートを特定するための従来のMLテクニックに代わる有望な代替手段を提供する。
このアプローチは、最小限のアノテーションで効率的なモデル開発を可能にし、ラベル付きデータが不足するシナリオに非常に適しています。
関連論文リスト
- No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [28.524573212179124]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。
合意、ラベルの品質、効率の観点から、専門家、クラウドソース、LLMベースのアノテーションを比較します。
以上の結果から,ラベルエラーがかなり多く,修正された場合,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文 参考訳(メタデータ) (2024-10-24T16:27:03Z) - SEDAC: A CVAE-Based Data Augmentation Method for Security Bug Report
Identification [0.0]
現実の世界では、セキュリティバグ報告の割合は極めて低い。
SEDACは、同様のバグレポートベクターを生成する新しいSBR識別方法である。
g測定の基準線は14.24%から50.10%の改善で上回っている。
論文 参考訳(メタデータ) (2024-01-22T15:53:52Z) - Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。
ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。
本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文 参考訳(メタデータ) (2023-12-10T16:14:02Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Early Detection of Security-Relevant Bug Reports using Machine Learning:
How Far Are We? [6.438136820117887]
典型的なメンテナンスシナリオでは、セキュリティ関連バグレポートは、修正パッチを作成する際に開発チームによって優先される。
オープンなセキュリティ関連バグレポートは、攻撃者がゼロデイ攻撃を実行するために活用できる機密情報の重大な漏洩になる可能性がある。
近年,機械学習に基づくセキュリティ関連バグレポートの検出手法が,有望な性能で報告されている。
論文 参考訳(メタデータ) (2021-12-19T11:30:29Z) - Few-Sample Named Entity Recognition for Security Vulnerability Reports
by Fine-Tuning Pre-Trained Language Models [1.9744907811058785]
セキュリティ上の脆弱性の報告(例えばCVEレポート)は、コンピュータやネットワークシステムのメンテナンスにおいて重要な役割を果たしている。
これらのレポートは構造化されていないテキストであるため、自動情報抽出(IE)は処理のスケールアップに役立つ。
セキュリティ脆弱性レポートのための自動IEに関する既存の作業は、しばしば多数のラベル付きトレーニングサンプルに依存している。
論文 参考訳(メタデータ) (2021-08-14T17:08:03Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。