論文の概要: VuLASTE: Long Sequence Model with Abstract Syntax Tree Embedding for
vulnerability Detection
- arxiv url: http://arxiv.org/abs/2302.02345v1
- Date: Sun, 5 Feb 2023 09:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 18:44:27.378880
- Title: VuLASTE: Long Sequence Model with Abstract Syntax Tree Embedding for
vulnerability Detection
- Title(参考訳): VuLASTE:脆弱性検出のための抽象構文木埋め込みを用いたLong Sequence Model
- Authors: Botong Zhu and Huobin Tan
- Abstract要約: 脆弱性検出を特殊なテキスト分類タスクとみなすVuLASTEというモデルを構築した。
語彙爆発問題を解決するために、VuLASTEは自然言語処理からバイトレベルのBPEアルゴリズムを使用する。
実世界のソースコード上でモデルパフォーマンスをテストするために,クロス言語およびマルチリポジトリの脆弱性データセットを構築した。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we build a model named VuLASTE, which regards vulnerability
detection as a special text classification task. To solve the vocabulary
explosion problem, VuLASTE uses a byte level BPE algorithm from natural
language processing. In VuLASTE, a new AST path embedding is added to represent
source code nesting information. We also use a combination of global and
dilated window attention from Longformer to extract long sequence semantic from
source code. To solve the data imbalance problem, which is a common problem in
vulnerability detection datasets, focal loss is used as loss function to make
model focus on poorly classified cases during training. To test our model
performance on real-world source code, we build a cross-language and
multi-repository vulnerability dataset from Github Security Advisory Database.
On this dataset, VuLASTE achieved top 50, top 100, top 200, top 500 hits of 29,
51, 86, 228, which are higher than state-of-art researches.
- Abstract(参考訳): 本稿では,脆弱性検出を特殊テキスト分類タスクとして扱うvulasteというモデルを構築した。
語彙爆発問題を解決するために、VuLASTEは自然言語処理からバイトレベルのBPEアルゴリズムを使用する。
VuLASTEでは、ソースコードのネスト情報を表現するために、新しいASTパスの埋め込みが追加されている。
また、longformerからグローバルおよび拡張されたウィンドウアテンションを組み合わせて、ソースコードから長いシーケンスセマンティクスを抽出する。
脆弱性検出データセットの共通する問題であるデータ不均衡問題を解決するために、トレーニング中の悪用事例にモデルに焦点を合わせるために、損失関数として焦点損失を用いる。
実世界のソースコードでモデルパフォーマンスをテストするため、Github Security Advisory Databaseからクロス言語およびマルチリポジトリの脆弱性データセットを構築しました。
このデータセットでは、VuLASTEがトップ50、トップ100、トップ200、トップ500ヒット29、51、86、228を達成した。
関連論文リスト
- MeaeQ: Mount Model Extraction Attacks with Efficient Queries [6.1106195466129485]
自然言語処理(NLP)におけるモデル抽出攻撃の研究
これらの問題に対処する単純で効果的な方法であるMeaeQを提案する。
MeaeQは、クエリを少なくしながら、ベースラインよりも犠牲者モデルに高い機能的類似性を実現する。
論文 参考訳(メタデータ) (2023-10-21T16:07:16Z) - Leveraging Vision-Language Foundation Models for Fine-Grained Downstream
Tasks [17.367599062853156]
CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。
本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:05:34Z) - Semi-Supervised and Long-Tailed Object Detection with CascadeMatch [91.86787064083012]
そこで我々はCascadeMatchと呼ばれる新しい擬似ラベル型検出器を提案する。
我々の検出器は、プログレッシブな信頼しきい値を持つ多段検出ヘッドを備えたカスケードネットワークアーキテクチャを備えている。
CascadeMatchは、長い尾のオブジェクト検出の処理において、既存の最先端の半教師付きアプローチを超越していることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:09:25Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based
Vulnerability Detection [29.52887618905746]
このデータセットには、150のCWEにまたがる18,945の脆弱性関数と、7,514のコミットから抽出された330,492の非脆弱性関数が含まれている。
以上の結果から,高い偽陽性率,低いF1スコア,難解なCWEの検出が困難であったため,ディープラーニングは依然として脆弱性検出の準備が整っていないことが示唆された。
大規模言語モデル(LLM)はMLベースの脆弱性検出において有望な研究方向であり,コード構造を持つグラフニューラルネットワーク(GNN)よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-01T23:29:14Z) - GLEN: General-Purpose Event Detection for Thousands of Types [80.99866527772512]
汎用的なイベント検出データセットGLENを構築し、205Kイベントの参照を3,465種類の異なるタイプでカバーしています。
GLENはオントロジーにおいて、今日の最大のイベントデータセットよりも20倍大きい。
また,GLENの大規模化に特化して設計された多段階イベント検出モデルCEDARを提案する。
論文 参考訳(メタデータ) (2023-03-16T05:36:38Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - AstBERT: Enabling Language Model for Code Understanding with Abstract
Syntax Tree [3.1087379479634927]
抽象構文木(AST)を用いてプログラミング言語(PL)をよりよく理解することを目的とした事前学習型言語モデルAstBERTモデルを提案する。
具体的には、GitHubから大量のソースコード(javaとpythonの両方)を収集し、ソースコードに関する情報を解釈して統合することができます。
実験結果から,我々のAstBERTモデルが両下流タスクの最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2022-01-20T03:27:26Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - 1st Place Solution to ECCV-TAO-2020: Detect and Represent Any Object for
Tracking [19.15537335764895]
従来のトラッキング・バイ・検出パラダイムを、このトラッキング・バイ・オブジェクトタスクに拡張します。
特徴学習ネットワークを訓練することで,あらゆる対象を表す出現特徴を学習する。
類似の外観機能とトラックレットレベルのポストアソシエーションモジュールを備えたシンプルなリンク戦略が最終的に最終追跡結果を生成するために適用されます。
論文 参考訳(メタデータ) (2021-01-20T09:42:32Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。