論文の概要: VuLASTE: Long Sequence Model with Abstract Syntax Tree Embedding for
vulnerability Detection
- arxiv url: http://arxiv.org/abs/2302.02345v1
- Date: Sun, 5 Feb 2023 09:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 18:44:27.378880
- Title: VuLASTE: Long Sequence Model with Abstract Syntax Tree Embedding for
vulnerability Detection
- Title(参考訳): VuLASTE:脆弱性検出のための抽象構文木埋め込みを用いたLong Sequence Model
- Authors: Botong Zhu and Huobin Tan
- Abstract要約: 脆弱性検出を特殊なテキスト分類タスクとみなすVuLASTEというモデルを構築した。
語彙爆発問題を解決するために、VuLASTEは自然言語処理からバイトレベルのBPEアルゴリズムを使用する。
実世界のソースコード上でモデルパフォーマンスをテストするために,クロス言語およびマルチリポジトリの脆弱性データセットを構築した。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we build a model named VuLASTE, which regards vulnerability
detection as a special text classification task. To solve the vocabulary
explosion problem, VuLASTE uses a byte level BPE algorithm from natural
language processing. In VuLASTE, a new AST path embedding is added to represent
source code nesting information. We also use a combination of global and
dilated window attention from Longformer to extract long sequence semantic from
source code. To solve the data imbalance problem, which is a common problem in
vulnerability detection datasets, focal loss is used as loss function to make
model focus on poorly classified cases during training. To test our model
performance on real-world source code, we build a cross-language and
multi-repository vulnerability dataset from Github Security Advisory Database.
On this dataset, VuLASTE achieved top 50, top 100, top 200, top 500 hits of 29,
51, 86, 228, which are higher than state-of-art researches.
- Abstract(参考訳): 本稿では,脆弱性検出を特殊テキスト分類タスクとして扱うvulasteというモデルを構築した。
語彙爆発問題を解決するために、VuLASTEは自然言語処理からバイトレベルのBPEアルゴリズムを使用する。
VuLASTEでは、ソースコードのネスト情報を表現するために、新しいASTパスの埋め込みが追加されている。
また、longformerからグローバルおよび拡張されたウィンドウアテンションを組み合わせて、ソースコードから長いシーケンスセマンティクスを抽出する。
脆弱性検出データセットの共通する問題であるデータ不均衡問題を解決するために、トレーニング中の悪用事例にモデルに焦点を合わせるために、損失関数として焦点損失を用いる。
実世界のソースコードでモデルパフォーマンスをテストするため、Github Security Advisory Databaseからクロス言語およびマルチリポジトリの脆弱性データセットを構築しました。
このデータセットでは、VuLASTEがトップ50、トップ100、トップ200、トップ500ヒット29、51、86、228を達成した。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Active Learning for Identifying Disaster-Related Tweets: A Comparison with Keyword Filtering and Generic Fine-Tuning [0.25602836891933073]
大量の非構造データの中から災害関連ポストを特定することは困難である。
従来の手法では、キーワードフィルタリングやトピックモデリング、分類に基づく手法を使って投稿を識別することが多い。
本研究では,災害関連つぶやきを識別するためのアクティブラーニング(AL)の可能性を検討する。
論文 参考訳(メタデータ) (2024-08-19T11:40:20Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - WitheredLeaf: Finding Entity-Inconsistency Bugs with LLMs [22.22945885085009]
Entity-Inconsistency Bugs (EIB)はセマンティックバグに由来する。
EIBは微妙で、何年も検出されていない。
本稿では, WitheredLeaf という新しい EIB 検出システムを提案する。
論文 参考訳(メタデータ) (2024-05-02T18:44:34Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - MeaeQ: Mount Model Extraction Attacks with Efficient Queries [6.1106195466129485]
自然言語処理(NLP)におけるモデル抽出攻撃の研究
これらの問題に対処する単純で効果的な方法であるMeaeQを提案する。
MeaeQは、クエリを少なくしながら、ベースラインよりも犠牲者モデルに高い機能的類似性を実現する。
論文 参考訳(メタデータ) (2023-10-21T16:07:16Z) - Leveraging Vision-Language Foundation Models for Fine-Grained Downstream
Tasks [17.367599062853156]
CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。
本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:05:34Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - GLEN: General-Purpose Event Detection for Thousands of Types [80.99866527772512]
汎用的なイベント検出データセットGLENを構築し、205Kイベントの参照を3,465種類の異なるタイプでカバーしています。
GLENはオントロジーにおいて、今日の最大のイベントデータセットよりも20倍大きい。
また,GLENの大規模化に特化して設計された多段階イベント検出モデルCEDARを提案する。
論文 参考訳(メタデータ) (2023-03-16T05:36:38Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - AstBERT: Enabling Language Model for Code Understanding with Abstract
Syntax Tree [3.1087379479634927]
抽象構文木(AST)を用いてプログラミング言語(PL)をよりよく理解することを目的とした事前学習型言語モデルAstBERTモデルを提案する。
具体的には、GitHubから大量のソースコード(javaとpythonの両方)を収集し、ソースコードに関する情報を解釈して統合することができます。
実験結果から,我々のAstBERTモデルが両下流タスクの最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2022-01-20T03:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。