論文の概要: CLNX: Bridging Code and Natural Language for C/C++ Vulnerability-Contributing Commits Identification
- arxiv url: http://arxiv.org/abs/2409.07407v1
- Date: Wed, 11 Sep 2024 16:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:41:10.313143
- Title: CLNX: Bridging Code and Natural Language for C/C++ Vulnerability-Contributing Commits Identification
- Title(参考訳): CLNX: C/C++の脆弱性検出のためのコードと自然言語のブリッジ
- Authors: Zeqing Qin, Yiwei Wu, Lansheng Han,
- Abstract要約: 大規模言語モデル(LLM)は脆弱性の識別に大きな可能性を示しています。
C/C++ プログラムと LLM 間の通信を容易にするブリッジとして CodeLinguaNexus (CLNX) を提案する。
CLNXを25,872のC/C++関数の公開データセットにコミットして評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown great promise in vulnerability identification. As C/C++ comprises half of the Open-Source Software (OSS) vulnerabilities over the past decade and updates in OSS mainly occur through commits, enhancing LLMs' ability to identify C/C++ Vulnerability-Contributing Commits (VCCs) is essential. However, current studies primarily focus on further pre-training LLMs on massive code datasets, which is resource-intensive and poses efficiency challenges. In this paper, we enhance the ability of BERT-based LLMs to identify C/C++ VCCs in a lightweight manner. We propose CodeLinguaNexus (CLNX) as a bridge facilitating communication between C/C++ programs and LLMs. Based on commits, CLNX efficiently converts the source code into a more natural representation while preserving key details. Specifically, CLNX first applies structure-level naturalization to decompose complex programs, followed by token-level naturalization to interpret complex symbols. We evaluate CLNX on public datasets of 25,872 C/C++ functions with their commits. The results show that CLNX significantly enhances the performance of LLMs on identifying C/C++ VCCs. Moreover, CLNX-equipped CodeBERT achieves new state-of-the-art and identifies 38 OSS vulnerabilities in the real world.
- Abstract(参考訳): 大規模言語モデル(LLM)は脆弱性の識別に大きな可能性を示しています。
C/C++は過去10年間でオープンソースソフトウェア(OSS)の脆弱性の半分を占めており、OSSの更新は主にコミットを通じて行われる。
しかし、最近の研究は主に、リソース集約的で効率の課題を生じさせる巨大なコードデータセット上で、LLMをさらに事前訓練することに焦点を当てている。
本稿では,BERT をベースとした LLM による C/C++ VCC の軽量化について述べる。
C/C++ プログラムと LLM 間の通信を容易にするブリッジとして CodeLinguaNexus (CLNX) を提案する。
コミットに基づいて、CLNXはソースコードをより自然な表現に変換すると同時に、キーの詳細を保存する。
具体的には、CLNXはまず複雑なプログラムを分解するために構造レベルの自然化を適用し、続いてトークンレベルの自然化によって複雑なシンボルを解釈する。
CLNXを25,872のC/C++関数の公開データセットにコミットして評価した。
その結果,CLNX は C/C++ VCC の識別における LLM の性能を著しく向上させることがわかった。
さらに、CLNX搭載のCodeBERTは、新しい最先端を実現し、現実世界で38のOSS脆弱性を特定している。
関連論文リスト
- ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - NAVRepair: Node-type Aware C/C++ Code Vulnerability Repair [14.152755184229374]
NAVRepairは、ASTから抽出されたノードタイプ情報とエラータイプを組み合わせた、新しいフレームワークである。
既存のLLMベースのC/C++脆弱性修復法と比較して26%高い精度を実現している。
論文 参考訳(メタデータ) (2024-05-08T11:58:55Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
LLM(Large Language Models)は、コード関連のタスクにおいて顕著なパフォーマンスを示す。
トレーニング済みのLLMがセキュリティ上の脆弱性を検出し、既存のツールの限界に対処できるかどうかを評価する。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - CompCodeVet: A Compiler-guided Validation and Enhancement Approach for
Code Dataset [12.58750209611099]
数十億のパラメータを持つモデルでさえ、多段階の推論を必要とするタスクの課題に直面します。
CompCodeVetはコンパイル不能なコードからコンパイル可能なコードを生成するためのコンパイラ誘導のCoTアプローチである。
論文 参考訳(メタデータ) (2023-11-11T08:21:52Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。