論文の概要: Don't Chase Your Tail! Missing Key Aspects Augmentation in Textual Vulnerability Descriptions of Long-tail Software through Feature Inference
- arxiv url: http://arxiv.org/abs/2405.07430v1
- Date: Mon, 13 May 2024 02:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 15:04:30.322676
- Title: Don't Chase Your Tail! Missing Key Aspects Augmentation in Textual Vulnerability Descriptions of Long-tail Software through Feature Inference
- Title(参考訳): 注意をそらすな! 機能推論によるロングテールソフトウェアのテキスト脆弱性記述における重要な側面の欠如
- Authors: Linyi Han, Shidong Pan, Zhenchang Xing, Jiamou Sun, Sofonias Yitagesu, Xiaowang Zhang, Zhiyong Feng,
- Abstract要約: 本稿では,TVDの長テールソフトウェアにおける重要な側面の欠如を補うために設計された,新しいソフトウェア機能推論フレームワークを紹介する。
本手法は,ログテールソフトウェアにおけるTVDの欠落する重要な側面を増大させる精度を著しく向上させる。
- 参考スコア(独自算出の注目度): 21.999268347272338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmenting missing key aspects in Textual Vulnerability Descriptions (TVDs) for software with a large user base (referred to as non-long-tail software) has greatly advanced vulnerability analysis and software security research. However, these methods often overlook software instances that have a limited user base (referred to as long-tail software) due to limited TVDs, variations in software features, and domain-specific jargon, which hinders vulnerability analysis and software repairs. In this paper, we introduce a novel software feature inference framework designed to augment the missing key aspects of TVDs for long-tail software. Firstly, we tackle the issue of non-standard software names found in community-maintained vulnerability databases by cross-referencing government databases with Common Vulnerabilities and Exposures (CVEs). Next, we employ Large Language Models (LLMs) to generate the missing key aspects. However, the limited availability of historical TVDs restricts the variety of examples. To overcome this limitation, we utilize the Common Weakness Enumeration (CWE) to classify all TVDs and select cluster centers as representative examples. To ensure accuracy, we present Natural Language Inference (NLI) models specifically designed for long-tail software. These models identify and eliminate incorrect responses. Additionally, we use a wiki repository to provide explanations for proprietary terms. Our evaluations demonstrate that our approach significantly improves the accuracy of augmenting missing key aspects of TVDs for log-tail software from 0.27 to 0.56 (+107%). Interestingly, the accuracy of non-long-tail software also increases from 64% to 71%. As a result, our approach can be useful in various downstream tasks that require complete TVD information.
- Abstract(参考訳): 大規模なユーザベース(非ロングテールソフトウェアと呼ばれる)を持つソフトウェアのテクスチャ脆弱性記述(TVD)に欠落する重要な側面を増すことで、脆弱性分析とソフトウェアセキュリティ研究が大幅に進歩した。
しかし、これらの手法は、制限されたTVD、ソフトウェア機能のバリエーション、脆弱性分析やソフトウェア修復を妨げるドメイン固有のjargonにより、限られたユーザーベース(ロングテールソフトウェアと呼ばれる)を持つソフトウェアインスタンスを見落としていることが多い。
本稿では,長テールソフトウェアにおけるTVDの欠落する重要な側面を補うために,新しいソフトウェア機能推論フレームワークを提案する。
まず,CVE(Common Vulnerabilities and Exposures)を用いた政府データベースの相互参照により,コミュニティが管理する脆弱性データベースに見られる非標準ソフトウェア名の問題に取り組む。
次に、欠けている重要な側面を生成するために、LLM(Large Language Models)を使用します。
しかし、歴史的なTVDの入手が限られているため、様々な例が制限されている。
この制限を克服するために、我々はCWE(Common Weakness Enumeration)を用いて、すべてのTVDを分類し、クラスタセンターを代表例として選択する。
そこで本研究では,自然言語推論(NLI)モデルを提案する。
これらのモデルは、誤った応答を特定し、排除する。
さらに、プロプライエタリな用語の説明を提供するためにwikiリポジトリを使用します。
本手法は,ログテールソフトウェアにおけるTVDの欠落点を0.27から0.56(+107%)に拡大する精度を大幅に向上することを示す。
興味深いことに、非ロングテールソフトウェアの精度も64%から71%に向上している。
その結果,本手法は,完全なTVD情報を必要とする様々な下流業務において有用であることがわかった。
関連論文リスト
- PriRoAgg: Achieving Robust Model Aggregation with Minimum Privacy Leakage for Federated Learning [49.916365792036636]
フェデレートラーニング(FL)は、大規模分散ユーザデータを活用する可能性から、最近大きな勢いを増している。
送信されたモデル更新は、センシティブなユーザ情報をリークする可能性があり、ローカルなトレーニングプロセスの集中的な制御の欠如は、モデル更新に対する悪意のある操作の影響を受けやすいグローバルモデルを残します。
我々は、Lagrange符号化計算と分散ゼロ知識証明を利用した汎用フレームワークPriRoAggを開発し、集約されたプライバシを満たすとともに、幅広いロバストな集約アルゴリズムを実行する。
論文 参考訳(メタデータ) (2024-07-12T03:18:08Z) - Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。
10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。
これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-16T19:11:15Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study [1.03590082373586]
ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。
目的は、複数の最先端のLCMをテストし、最も優れたプロンプト戦略を特定することである。
LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。
論文 参考訳(メタデータ) (2024-05-24T14:59:19Z) - Charting The Evolution of Solidity Error Handling [16.49756378654774]
スマートコントラクトが検証すべきトランザクションを実行するため,Solidityスマートコントラクトにおけるエラー処理の利用が不可欠だ。
我々は283Kのユニークなオープンソーススマートコントラクトについて大規模な実証研究を行い、時間とともにSolidity EH機能の使用に関するパターンを特定する。
論文 参考訳(メタデータ) (2024-02-05T16:50:39Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Cross Project Software Vulnerability Detection via Domain Adaptation and
Max-Margin Principle [21.684043656053106]
ソフトウェア脆弱性(SV)は、コンピュータソフトウェアの普及により、一般的で深刻な問題となっている。
これら2つの重要な問題に対処するための新しいエンドツーエンドアプローチを提案する。
提案手法は, SVDにおける最重要尺度であるF1尺度の精度を, 使用データセットの2番目に高い手法と比較して1.83%から6.25%に向上させる。
論文 参考訳(メタデータ) (2022-09-19T23:47:22Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Identifying Non-Control Security-Critical Data through Program Dependence Learning [9.764831771725952]
データ指向攻撃において、基本的なステップは、制御不能でセキュリティクリティカルなデータを特定することである。
本稿では,従来のプログラム分析とディープラーニングを組み合わせた新しい手法を提案する。
このツールチェーンは、Google FuzzBenchで80の潜在的クリティカル変数を明らかにする。
論文 参考訳(メタデータ) (2021-08-27T00:28:06Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - V2W-BERT: A Framework for Effective Hierarchical Multiclass
Classification of Software Vulnerabilities [7.906207218788341]
本稿では,Transformer-based learning framework(V2W-BERT)を提案する。
自然言語処理,リンク予測,転送学習のアイデアを用いることで,従来の手法よりも優れる。
ランダムに分割されたデータの予測精度は最大97%、一時分割されたデータの予測精度は最大94%です。
論文 参考訳(メタデータ) (2021-02-23T05:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。