論文の概要: Do Chase Your Tail! Missing Key Aspects Augmentation in Textual Vulnerability Descriptions of Long-tail Software through Feature Inference
- arxiv url: http://arxiv.org/abs/2405.07430v2
- Date: Sun, 15 Dec 2024 09:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:39.124542
- Title: Do Chase Your Tail! Missing Key Aspects Augmentation in Textual Vulnerability Descriptions of Long-tail Software through Feature Inference
- Title(参考訳): ロングテールソフトウェアにおける特徴推論によるテキスト脆弱性記述における重要な側面の欠如
- Authors: Linyi Han, Shidong Pan, Zhenchang Xing, Jiamou Sun, Sofonias Yitagesu, Xiaowang Zhang, Zhiyong Feng,
- Abstract要約: 効果的な脆弱性分析には,テクスト脆弱性記述(TVD)に欠落する重要な側面の増大が不可欠である。
本稿では,長テールソフトウェアにおけるTVDの欠落する重要な側面を補うために,新しいソフトウェア機能推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.999268347272338
- License:
- Abstract: Augmenting missing key aspects in Textual Vulnerability Descriptions (TVDs) is crucial for effective vulnerability analysis. For instance, in TVDs, key aspects include Attack Vector, Vulnerability Type, among others. These key aspects help security engineers understand and address the vulnerability in a timely manner. For software with a large user base (non-long-tail software), augmenting these missing key aspects has significantly advanced vulnerability analysis and software security research. However, software instances with a limited user base (long-tail software) often get overlooked due to inconsistency software names, TVD limited avaliability, and domain-specific jargon, which complicates vulnerability analysis and software repairs. In this paper, we introduce a novel software feature inference framework designed to augment the missing key aspects of TVDs for long-tail software. Firstly, we tackle the issue of non-standard software names found in community-maintained vulnerability databases by cross-referencing government databases with Common Vulnerabilities and Exposures (CVEs). Next, we employ Large Language Models (LLMs) to generate the missing key aspects. However, the limited availability of historical TVDs restricts the variety of examples. To overcome this limitation, we utilize the Common Weakness Enumeration (CWE) to classify all TVDs and select cluster centers as representative examples. To ensure accuracy, we present Natural Language Inference (NLI) models specifically designed for long-tail software. These models identify and eliminate incorrect responses. Additionally, we use a wiki repository to provide explanations for proprietary terms.
- Abstract(参考訳): 効果的な脆弱性分析には,テクスト脆弱性記述(TVD)に欠落する重要な側面の増大が不可欠である。
例えば、TVDでは、アタックベクター、脆弱性タイプなどの重要な側面がある。
これらの重要な側面は、セキュリティエンジニアがタイムリーに脆弱性を理解し、対処するのに役立ちます。
大規模なユーザベース(非ロングテールソフトウェア)を持つソフトウェアでは、これらの欠落した重要な側面を増大させることで、脆弱性分析とソフトウェアセキュリティ研究が大幅に進歩する。
しかし、ユーザベースが限られているソフトウェアインスタンス(ロングテールソフトウェア)は、不整合なソフトウェア名、TVD限定の可用性、脆弱性分析とソフトウェアの修正を複雑にするドメイン固有のjargonによって見落とされがちである。
本稿では,長テールソフトウェアにおけるTVDの欠落する重要な側面を補うために,新しいソフトウェア機能推論フレームワークを提案する。
まず,CVE(Common Vulnerabilities and Exposures)を用いた政府データベースの相互参照により,コミュニティが管理する脆弱性データベースに見られる非標準ソフトウェア名の問題に取り組む。
次に、欠けている重要な側面を生成するために、LLM(Large Language Models)を使用します。
しかし、歴史的なTVDの入手が限られているため、様々な例が制限されている。
この制限を克服するために、我々はCWE(Common Weakness Enumeration)を用いて、すべてのTVDを分類し、クラスタセンターを代表例として選択する。
そこで本研究では,自然言語推論(NLI)モデルを提案する。
これらのモデルは、誤った応答を特定し、排除する。
さらに、プロプライエタリな用語の説明を提供するためにwikiリポジトリを使用します。
関連論文リスト
- Evaluating Pre-Trained Models for Multi-Language Vulnerability Patching [3.220818227251765]
本稿では,事前学習型言語モデルであるCodeBERTとCodeT5の脆弱性パッチ自動適用の可能性について検討する。
これらのモデルの精度、計算効率、脆弱性のあるコードパッチの長さがパフォーマンスに与える影響について評価する。
論文 参考訳(メタデータ) (2025-01-13T13:51:05Z) - Seeker: Towards Exception Safety Code Generation with Intermediate Language Agents Framework [58.36391985790157]
現実世界のソフトウェア開発では、不適切な例外処理がコードの堅牢性と信頼性に重大な影響を与えます。
コードにおける例外処理を改善するために,大規模言語モデル (LLM) の利用について検討する。
例外処理のエキスパート開発者戦略に触発されたマルチエージェントフレームワークであるSeekerを提案する。
論文 参考訳(メタデータ) (2024-12-16T12:35:29Z) - Enhanced LLM-Based Framework for Predicting Null Pointer Dereference in Source Code [2.2020053359163305]
我々は「DeLLNeuN」と呼ばれる細調整大言語モデル(LLM)を用いた新しいアプローチを提案する。
Draper VDISCデータセットを用いて87%の精度と88%の精度を示した。
論文 参考訳(メタデータ) (2024-11-29T19:24:08Z) - A Combined Feature Embedding Tools for Multi-Class Software Defect and Identification [2.2020053359163305]
本稿では,GraphCodeBERTとGraph Convolutional Networkを組み合わせた実験手法であるCodeGraphNetを提案する。
この方法は、機能間の複雑な関係をキャプチャし、より正確な脆弱性の識別と分離を可能にする。
決定木とニューラルネットワークのハイブリッドであるDeepTreeモデルは、最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T17:33:02Z) - Seeker: Enhancing Exception Handling in Code with LLM-based Multi-Agent Approach [54.03528377384397]
現実世界のソフトウェア開発では、不適切な例外処理がコードの堅牢性と信頼性に重大な影響を与えます。
コードにおける例外処理を改善するために,大規模言語モデル (LLM) の利用について検討する。
例外処理のエキスパート開発者戦略にインスパイアされたマルチエージェントフレームワークであるSeekerを提案する。
論文 参考訳(メタデータ) (2024-10-09T14:45:45Z) - The Impact of SBOM Generators on Vulnerability Assessment in Python: A Comparison and a Novel Approach [56.4040698609393]
Software Bill of Materials (SBOM) は、ソフトウェア構成における透明性と妥当性を高めるツールとして推奨されている。
現在のSBOM生成ツールは、コンポーネントや依存関係を識別する際の不正確さに悩まされることが多い。
提案するPIP-sbomは,その欠点に対処する新しいピップインスパイアされたソリューションである。
論文 参考訳(メタデータ) (2024-09-10T10:12:37Z) - Patch2QL: Discover Cognate Defects in Open Source Software Supply Chain
With Auto-generated Static Analysis Rules [1.9591497166224197]
本稿では,SASTルールの自動生成によるOSSのコグネート欠陥の検出手法を提案する。
具体的には、プリパッチバージョンとポストパッチバージョンから重要な構文と意味情報を抽出する。
我々はPatch2QLというプロトタイプツールを実装し、それをC/C++の基本OSSに適用した。
論文 参考訳(メタデータ) (2024-01-23T02:23:11Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。