論文の概要: Software Vulnerability Prediction in Low-Resource Languages: An Empirical Study of CodeBERT and ChatGPT
- arxiv url: http://arxiv.org/abs/2404.17110v1
- Date: Fri, 26 Apr 2024 01:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:14:08.127327
- Title: Software Vulnerability Prediction in Low-Resource Languages: An Empirical Study of CodeBERT and ChatGPT
- Title(参考訳): 低リソース言語におけるソフトウェア脆弱性予測:CodeBERTとChatGPTの実証的研究
- Authors: Triet H. M. Le, M. Ali Babar, Tung Hoang Thai,
- Abstract要約: 我々は,新興言語におけるSVデータの不足が最先端のSV予測モデルに与える影響を評価するための実証的研究を行った。
我々は,関数レベルのSV予測とラインレベルのSV予測のためのデータサンプリング技術を用いて,CodeBERTに基づく最先端モデルの訓練と試験を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Software Vulnerability (SV) prediction in emerging languages is increasingly important to ensure software security in modern systems. However, these languages usually have limited SV data for developing high-performing prediction models. Aims: We conduct an empirical study to evaluate the impact of SV data scarcity in emerging languages on the state-of-the-art SV prediction model and investigate potential solutions to enhance the performance. Method: We train and test the state-of-the-art model based on CodeBERT with and without data sampling techniques for function-level and line-level SV prediction in three low-resource languages - Kotlin, Swift, and Rust. We also assess the effectiveness of ChatGPT for low-resource SV prediction given its recent success in other domains. Results: Compared to the original work in C/C++ with large data, CodeBERT's performance of function-level and line-level SV prediction significantly declines in low-resource languages, signifying the negative impact of data scarcity. Regarding remediation, data sampling techniques fail to improve CodeBERT; whereas, ChatGPT showcases promising results, substantially enhancing predictive performance by up to 34.4% for the function level and up to 53.5% for the line level. Conclusion: We have highlighted the challenge and made the first promising step for low-resource SV prediction, paving the way for future research in this direction.
- Abstract(参考訳): 背景: 新興言語におけるソフトウェア脆弱性(SV)予測は、現代のシステムにおけるソフトウェアセキュリティを保証するためにますます重要になっている。
しかし、これらの言語は通常、高性能な予測モデルを開発するために限られたSVデータを持っている。
Aims: 新興言語におけるSVデータ不足が最先端のSV予測モデルに与える影響を実証的に評価し, 性能向上のための潜在的解決策を検討する。
メソッド: 私たちは、Kotlin、Swift、Rustの3つの低リソース言語で関数レベルのSV予測とラインレベルのSV予測のためのデータサンプリングテクニックを使用せずに、CodeBERTに基づいた最先端モデルのトレーニングとテストを行います。
また,他の領域での最近の成功を踏まえ,低リソースSV予測におけるChatGPTの有効性を評価した。
結果: C/C++の大規模データと比較すると,機能レベルとラインレベルのSV予測の性能は低リソース言語では著しく低下し,データ不足による負の影響が示唆された。
一方、ChatGPTは有望な結果を示し、関数レベルでは34.4%、ラインレベルでは53.5%まで予測性能を大幅に向上させた。
結論:我々はこの課題を強調し、低リソースのSV予測の最初の有望なステップを踏み出した。
関連論文リスト
- Mitigating Data Imbalance for Software Vulnerability Assessment: Does Data Augmentation Help? [0.0]
CVSS(Common Vulnerability Scoring System)タスクにおけるモデルの予測性能は,データ不均衡の軽減によって著しく向上することを示す。
また、ランダムなテキスト挿入、削除、置換といった単純なテキスト拡張は、ボード全体のベースラインよりも優れていることもわかりました。
論文 参考訳(メタデータ) (2024-07-15T13:47:55Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Are Latent Vulnerabilities Hidden Gems for Software Vulnerability
Prediction? An Empirical Study [4.830367174383139]
潜伏脆弱な関数は、平均でSVの数を4倍増やし、5kの誤ラベル関数を修正できる。
ノイズにもかかわらず、最先端のSV予測モデルがそのような潜伏SVの利点を大いに享受できることが示される。
論文 参考訳(メタデータ) (2024-01-20T03:36:01Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - On the Use of Fine-grained Vulnerable Code Statements for Software
Vulnerability Assessment Models [0.0]
実世界の200のプロジェクトで429のSVの1,782の関数から得られた大規模データを用いて,関数レベルのSVアセスメントタスクのための機械学習モデルを開発した。
脆弱な文のサイズは5.8倍小さいが、7.5-114.5%以上の評価性能を示す。
論文 参考訳(メタデータ) (2022-03-16T06:29:40Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。