論文の概要: Multi-View Pre-Trained Model for Code Vulnerability Identification
- arxiv url: http://arxiv.org/abs/2208.05227v1
- Date: Wed, 10 Aug 2022 09:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 13:05:09.682995
- Title: Multi-View Pre-Trained Model for Code Vulnerability Identification
- Title(参考訳): コード脆弱性識別のためのマルチビュー事前学習モデル
- Authors: Xuxiang Jiang, Yinhao Xiao, Jun Wang, Wei Zhang
- Abstract要約: ソースコードのシーケンシャルおよびマルチタイプ構造情報をエンコードするMV-PTM(Multi-View Pre-Trained Model)を提案する。
2つの公開データセットで実施された実験は、MV-PTMの優位性を示している。
- 参考スコア(独自算出の注目度): 10.129948567398506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vulnerability identification is crucial for cyber security in the
software-related industry. Early identification methods require significant
manual efforts in crafting features or annotating vulnerable code. Although the
recent pre-trained models alleviate this issue, they overlook the multiple rich
structural information contained in the code itself. In this paper, we propose
a novel Multi-View Pre-Trained Model (MV-PTM) that encodes both sequential and
multi-type structural information of the source code and uses contrastive
learning to enhance code representations. The experiments conducted on two
public datasets demonstrate the superiority of MV-PTM. In particular, MV-PTM
improves GraphCodeBERT by 3.36\% on average in terms of F1 score.
- Abstract(参考訳): 脆弱性の特定は、ソフトウェア関連業界におけるサイバーセキュリティにとって不可欠である。
早期の識別方法は、機能の作成や脆弱性のあるコードの注釈付けにかなりの手作業を必要とする。
最近の事前訓練されたモデルはこの問題を軽減するが、コード自体に含まれる複数のリッチな構造情報を見落としている。
本稿では,ソースコードの逐次的および多型構造情報をエンコードし,コントラスト学習を用いてコード表現を強化する,新しいマルチビュー事前学習モデル(MV-PTM)を提案する。
2つの公開データセットで行った実験はmv-ptmの優位を示している。
特にMV-PTMは、F1スコアの平均でGraphCodeBERTを3.36倍改善している。
関連論文リスト
- Coding-PTMs: How to Find Optimal Code Pre-trained Models for Code Embedding in Vulnerability Detection? [30.84647604639891]
本研究では,10種類のコード PTM が生成したコード埋め込みが脆弱性検出性能に与える影響について検討する。
我々は,特定の脆弱性検出タスクに対して,エンジニアが最適なコードPTMを選択するのを支援するための推奨フレームワークであるCoding-PTMを提案する。
論文 参考訳(メタデータ) (2024-08-09T04:56:26Z) - How to get better embeddings with code pre-trained models? An empirical
study [6.220333404184779]
下流分類タスクの埋め込みを生成するために,5つの異なるコード事前訓練モデル(PTM)について検討する。
特別なトークンによって得られた埋め込みは、コードスニペット全体の意味情報を十分に集約していないことが分かりました。
PTMの事前学習と同様、コードデータとテキストデータをマージして得られるコード埋め込みの品質は低く、よりリッチなセマンティック情報を保証できない。
論文 参考訳(メタデータ) (2023-11-14T10:44:21Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Robust Representation Learning for Privacy-Preserving Machine Learning:
A Multi-Objective Autoencoder Approach [0.9831489366502302]
プライバシー保護機械学習(ppML)のための堅牢な表現学習フレームワークを提案する。
提案手法は,多目的方式でオートエンコーダを訓練することを中心に,符号化部からの潜伏と学習の特徴を符号化形式として結合する。
提案したフレームワークでは、元のフォームを公開せずに、データを共有し、サードパーティツールを使用することができます。
論文 参考訳(メタデータ) (2023-09-08T16:41:25Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。