論文の概要: Coding-PTMs: How to Find Optimal Code Pre-trained Models for Code Embedding in Vulnerability Detection?
- arxiv url: http://arxiv.org/abs/2408.04863v1
- Date: Fri, 9 Aug 2024 04:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:38:47.696612
- Title: Coding-PTMs: How to Find Optimal Code Pre-trained Models for Code Embedding in Vulnerability Detection?
- Title(参考訳): コーディング-PTM: 脆弱性検出に埋め込まれたコードに対して、最適なコード事前学習モデルを見つけるには?
- Authors: Yu Zhao, Lina Gong, Zhiqiu Huang, Yongwei Wang, Mingqiang Wei, Fei Wu,
- Abstract要約: 本研究では,10種類のコード PTM が生成したコード埋め込みが脆弱性検出性能に与える影響について検討する。
我々は,特定の脆弱性検出タスクに対して,エンジニアが最適なコードPTMを選択するのを支援するための推奨フレームワークであるCoding-PTMを提案する。
- 参考スコア(独自算出の注目度): 30.84647604639891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vulnerability detection is garnering increasing attention in software engineering, since code vulnerabilities possibly pose significant security. Recently, reusing various code pre-trained models has become common for code embedding without providing reasonable justifications in vulnerability detection. The premise for casually utilizing pre-trained models (PTMs) is that the code embeddings generated by different PTMs would generate a similar impact on the performance. Is that TRUE? To answer this important question, we systematically investigate the effects of code embedding generated by ten different code PTMs on the performance of vulnerability detection, and get the answer, i.e., that is NOT true. We observe that code embedding generated by various code PTMs can indeed influence the performance and selecting an embedding technique based on parameter scales and embedding dimension is not reliable. Our findings highlight the necessity of quantifying and evaluating the characteristics of code embedding generated by various code PTMs to understand the effects. To achieve this goal, we analyze the numerical representation and data distribution of code embedding generated by different PTMs to evaluate differences and characteristics. Based on these insights, we propose Coding-PTMs, a recommendation framework to assist engineers in selecting optimal code PTMs for their specific vulnerability detection tasks. Specifically, we define thirteen code embedding metrics across three dimensions (i.e., statistics, norm, and distribution) for constructing a specialized code PTM recommendation dataset. We then employ a Random Forest classifier to train a recommendation model and identify the optimal code PTMs from the candidate model zoo.
- Abstract(参考訳): 脆弱性検出は、コードの脆弱性が重大なセキュリティをもたらす可能性があるため、ソフトウェアエンジニアリングにおける注目を集めている。
近年、様々なコード事前訓練モデルの再利用は、脆弱性検出において合理的な正当性を提供することなく、コード埋め込みにおいて一般的になっている。
事前訓練されたモデル(PTM)をカジュアルに利用する前提は、異なるPTMによって生成されたコード埋め込みが、パフォーマンスに同様の影響を与えることである。
それはTRUEですか?
この重要な質問に答えるために,10の異なるコード PTM が生成するコード埋め込みが脆弱性検出性能に与える影響を体系的に調査し,その答えを得る。
様々なコード PTM によって生成されたコード埋め込みが実際に性能に影響を与えることを観察し,パラメータスケールと埋め込み次元に基づく埋め込み手法の選択は信頼性に欠けることを示した。
本研究の目的は,様々なコード PTM が生成するコード埋め込みの特性を定量化し,評価することである。
この目的を達成するために、異なるPTMによって生成されたコード埋め込みの数値表現とデータ分布を分析し、相違点と特性を評価する。
これらの知見に基づいて,特定の脆弱性検出タスクに対して,エンジニアが最適なコードPTMを選択するのを支援するための推奨フレームワークであるCoding-PTMを提案する。
具体的には、特殊コードPTMレコメンデーションデータセットを構築するために、3次元(統計、規範、分布)に13のコード埋め込みメトリクスを定義します。
次に、ランダムフォレスト分類器を用いてレコメンデーションモデルを訓練し、候補モデル動物園から最適なコードPTMを特定する。
関連論文リスト
- DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.24431208419858]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。
DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文 参考訳(メタデータ) (2024-11-20T02:03:16Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。
本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文 参考訳(メタデータ) (2024-01-12T09:15:20Z) - How to get better embeddings with code pre-trained models? An empirical
study [6.220333404184779]
下流分類タスクの埋め込みを生成するために,5つの異なるコード事前訓練モデル(PTM)について検討する。
特別なトークンによって得られた埋め込みは、コードスニペット全体の意味情報を十分に集約していないことが分かりました。
PTMの事前学習と同様、コードデータとテキストデータをマージして得られるコード埋め込みの品質は低く、よりリッチなセマンティック情報を保証できない。
論文 参考訳(メタデータ) (2023-11-14T10:44:21Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Adversarial Attacks on Code Models with Discriminative Graph Patterns [10.543744143786519]
我々は、コードモデルの堅牢性をよりよく評価するために、新しい敵攻撃フレームワーク、GraphCodeAttackを提案する。
ターゲットのコードモデルが与えられたら、GraphCodeAttackは自動的に重要なコードパターンをマイニングし、モデルの決定に影響を与える可能性がある。
ASTパターンからの攻撃を効果的に合成するために、GraphCodeAttackは、個別にトレーニング済みのコードモデルを使用して、具体的なコードスニペットでASTを埋める。
論文 参考訳(メタデータ) (2023-08-22T03:40:34Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Multi-View Pre-Trained Model for Code Vulnerability Identification [10.129948567398506]
ソースコードのシーケンシャルおよびマルチタイプ構造情報をエンコードするMV-PTM(Multi-View Pre-Trained Model)を提案する。
2つの公開データセットで実施された実験は、MV-PTMの優位性を示している。
論文 参考訳(メタデータ) (2022-08-10T09:00:58Z) - What do pre-trained code models know about code? [9.60966128833701]
事前に訓練されたコードモデルを調べるために、プローブと呼ばれる診断タスクを使用します。
BERT(英語で事前学習)、CodeBERT(ソースコードで事前学習)、CodeBERTa(自然言語で事前学習)、GraphCodeBERT(データフローでソースコードで事前学習)について検討した。
論文 参考訳(メタデータ) (2021-08-25T16:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。