Fugu-MT 論文翻訳(概要): SeBERTis: A Framework for Producing Classifiers of Security-Related Issue Reports

論文の概要: SeBERTis: A Framework for Producing Classifiers of Security-Related Issue Reports

arxiv url: http://arxiv.org/abs/2512.15003v1
Date: Wed, 17 Dec 2025 01:23:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-18 17:06:26.823207
Title: SeBERTis: A Framework for Producing Classifiers of Security-Related Issue Reports
Title（参考訳）: SeBERTis: セキュリティ関連イシューレポートの分類生成フレームワーク
Authors: Sogol Masoumzadeh, Yufei Li, Shane McIntosh, Dániel Varró, Lili Wei,
Abstract要約: SEBERTISは、Deep Neural Networks(DNN)を語彙的キューに依存しない分類器として訓練するフレームワークである。当社のフレームワークは,1万件のGitHubイシューレポートをキュレートしたコーパスのセキュリティ関連問題を検出する上で,0.9880のF1スコアを達成した。
参考スコア（独自算出の注目度）: 8.545800179148442
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Monitoring issue tracker submissions is a crucial software maintenance activity. A key goal is the prioritization of high risk, security-related bugs. If such bugs can be recognized early, the risk of propagation to dependent products and endangerment of stakeholder benefits can be mitigated. To assist triage engineers with this task, several automatic detection techniques, from Machine Learning (ML) models to prompting Large Language Models (LLMs), have been proposed. Although promising to some extent, prior techniques often memorize lexical cues as decision shortcuts, yielding low detection rate specifically for more complex submissions. As such, these classifiers do not yet reach the practical expectations of a real-time detector of security-related issues. To address these limitations, we propose SEBERTIS, a framework to train Deep Neural Networks (DNNs) as classifiers independent of lexical cues, so that they can confidently detect fully unseen security-related issues. SEBERTIS capitalizes on fine-tuning bidirectional transformer architectures as Masked Language Models (MLMs) on a series of semantically equivalent vocabulary to prediction labels (which we call Semantic Surrogates) when they have been replaced with a mask. Our SEBERTIS-trained classifier achieves a 0.9880 F1-score in detecting security-related issues of a curated corpus of 10,000 GitHub issue reports, substantially outperforming state-of-the-art issue classifiers, with 14.44%-96.98%, 15.40%-93.07%, and 14.90%-94.72% higher detection precision, recall, and F1-score over ML-based baselines. Our classifier also substantially surpasses LLM baselines, with an improvement of 23.20%-63.71%, 36.68%-85.63%, and 39.49%-74.53% for precision, recall, and F1-score.
Abstract（参考訳）: 問題トラッカーの提出をモニタリングすることは、ソフトウェアメンテナンスの重要な活動である。主要なゴールは、高いリスク、セキュリティ関連のバグの優先順位付けである。このようなバグが早期に認識できれば、依存製品への伝播や利害関係者の利益の危険が軽減される可能性がある。このタスクでトリアージエンジニアを支援するため、機械学習(ML)モデルからLLM(Large Language Models)への自動検出技術が提案されている。ある程度は有望ではあるが、先行技術は語彙的手がかりを意思決定のショートカットとして記憶し、より複雑な提出のためには検出率が低い。そのため、これらの分類器は、セキュリティ関連の問題をリアルタイムに検出するという現実的な期待にはまだ届いていない。このような制約に対処するため,我々は,Deep Neural Networks (DNN) を語彙的手がかりに依存しない分類器として訓練するフレームワーク SEBERTIS を提案する。 SEBERTISは、マスケッド言語モデル(MLM)として微調整された双方向トランスフォーマーアーキテクチャを、セマンティックサロゲート(Semantic Surrogates、セマンティックサロゲート)と呼ばれる一連の意味論的に等価な語彙に基づいて実現している。当社のSEBERTISトレーニングされた分類器は、1万件のGitHubイシューレポートのキュレーションされたコーパスのセキュリティ関連問題の検出において0.9880のF1スコアを達成し、MLベースのベースラインよりも14.44%-96.98%、15.40%-93.07%、14.90%-94.72%高い検出精度、リコール、F1スコアという、最先端のイシュー分類器よりも大幅に優れています。我々の分類器はLLMベースラインを大幅に上回り、23.20%-63.71%、36.68%-85.63%、39.49%-74.53%の精度、リコール、F1スコアが向上した。

関連論文リスト

Favia: Forensic Agent for Vulnerability-fix Identification and Analysis [5.43098755190303]
脆弱性修正識別のための法医学的エージェントベースのフレームワークであるFaviaを提案する。 Faviaは、スケーラブルな候補ランキングと、深く反復的なセマンティック推論を組み合わせる。私たちは、実世界の3,708のリポジトリから800万以上のコミットからなる大規模なデータセットであるCVEVC上で、Faviaを評価しました。
論文参考訳（メタデータ） (2026-02-13T00:51:22Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
Large Language Models Versus Static Code Analysis Tools: A Systematic Benchmark for Vulnerability Detection [0.0]
業界標準の3つの静的コード分析ツール(Sonar、CodeQL、Snyk Code)と、GitHub Modelsプラットフォーム(GPT-4.1、Mistral Large、DeepSeek V3)にホストされた最先端の3つの大規模言語モデルを評価した。 63の脆弱性を埋め込んだ10の現実世界のC#プロジェクトのキュレートされたスイートを使用して、古典的な精度(精度、リコール、Fスコア)、分析のレイテンシ、粒度、真の肯定性を検証するために必要な開発者の労力を測定します。開発初期段階の言語モデルを採用して、広義のコンテキスト認識検出と検出を行う、ハイブリッドパイプラインを推奨します。
論文参考訳（メタデータ） (2025-08-06T13:48:38Z)
Are Sparse Autoencoders Useful for Java Function Bug Detection? [5.119371135458389]
ソフトウェア脆弱性はセキュリティ侵害の主な原因である。従来の脆弱性検出方法は、高い偽陽性率、スケーラビリティの問題、手作業への依存によって制限されている。 Sparse Autoencoderはこの問題に対して有望な解決策を提供する。
論文参考訳（メタデータ） (2025-05-15T14:59:17Z)
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。特定のシナリオは、25倍の攻撃率を被る。 MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文参考訳（メタデータ） (2025-04-09T06:53:23Z)
Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。本稿では,新しいNLPを用いたインジェクション検出手法を提案する。階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文参考訳（メタデータ） (2024-10-28T15:47:03Z)
SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文参考訳（メタデータ） (2024-06-22T23:26:07Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。