Fugu-MT 論文翻訳(概要): M2CVD: Multi-Model Collaboration for Code Vulnerability Detection

論文の概要: M2CVD: Multi-Model Collaboration for Code Vulnerability Detection

arxiv url: http://arxiv.org/abs/2406.05940v1
Date: Mon, 10 Jun 2024 00:05:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 15:25:59.262097
Title: M2CVD: Multi-Model Collaboration for Code Vulnerability Detection
Title（参考訳）: M2CVD:コードの脆弱性検出のためのマルチモデルコラボレーション
Authors: Ziliang Wang, Ge Li, Jia Li, Yingfei Xiong, Jia Li, Zhi Jin,
Abstract要約: 大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。 CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
参考スコア（独自算出の注目度）: 54.305524166475045
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large Language Models (LLMs) have strong capabilities in code comprehension, but fine-tuning costs and semantic alignment issues limit their project-specific optimization; conversely, code models such CodeBERT are easy to fine-tune, but it is often difficult to learn vulnerability semantics from complex code languages. To address these challenges, this paper introduces the Multi-Model Collaborative Vulnerability Detection approach (M2CVD) that leverages the strong capability of analyzing vulnerability semantics from LLMs to improve the detection accuracy of code models. M2CVD employs a novel collaborative process: first enhancing the quality of vulnerability semantic description produced by LLMs through the understanding of project code by code models, and then using these improved vulnerability semantic description to boost the detection accuracy of code models. We demonstrated M2CVD's effectiveness on two real-world datasets, where M2CVD significantly outperformed the baseline. In addition, we demonstrate that the M2CVD collaborative method can extend to other different LLMs and code models to improve their accuracy in vulnerability detection tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。これらの課題に対処するために,LLMから脆弱性意味を解析し,コードモデルの検出精度を向上させるM2CVD(Multi-Model Collaborative Vulnerability Detection)を提案する。 M2CVDは、コードモデルによるプロジェクトコードの理解を通じて、LLMが生成する脆弱性セマンティック記述の品質を向上させるとともに、これらの改善された脆弱性セマンティック記述を使用して、コードモデルの検出精度を高めるという、新しい協調プロセスを採用している。実世界の2つのデータセットにおいて,M2CVDの有効性を実証した。さらに,M2CVDコラボレーティブ手法は,他のLLMやコードモデルにも拡張可能で,脆弱性検出タスクの精度が向上することを示した。

関連論文リスト

A Mixture of Linear Corrections Generates Secure Code [20.94236753015922]
大規模言語モデル(LLM)は、洗練されたコード生成タスクに熟練しているが、コードの脆弱性を確実に検出または回避するには効果がない。現在のLLMは、脆弱なコードとセキュアなコードとを区別する正確な内部表現を符号化している。本研究では,モデルのトークン生成確率を補正によって微調整する推論時ステアリング手法を開発した。
論文参考訳（メタデータ） (2025-07-13T06:27:33Z)
Boosting Vulnerability Detection of LLMs via Curriculum Preference Optimization with Synthetic Reasoning Data [22.557961978833386]
本稿では,脆弱性パターンのマイニングに優れた大規模言語モデル(LLM)の新たなフレームワークを提案する。具体的には、脆弱性と対応する固定コードに対する前方および後方の推論プロセスを構築し、高品質な推論データの合成を保証する。 ReVD は LLM ベースのソフトウェア脆弱性検出のための新たな最先端技術,例えば 12.24%-22.77% の精度向上を実現している。
論文参考訳（メタデータ） (2025-06-09T03:25:23Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
An Initial Exploration of Fine-tuning Small Language Models for Smart Contract Reentrancy Vulnerability Detection [1.1049608786515839]
大規模言語モデル(LLM)は、様々なコーディングタスクにますます使われている。ニッチ領域の適切な結果を得るために,より小さな言語モデルを微調整できるかどうかを評価する。
論文参考訳（メタデータ） (2025-05-25T09:28:33Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
Efficient Knowledge Feeding to Language Models: A Novel Integrated Encoder-Decoder Architecture [0.0]
ICVは言語モデルの潜在埋め込みを用いて、コンテキスト内学習をリキャストする。 ICVは直接情報をモデルに統合し、この情報をより効率的に処理することができる。
論文参考訳（メタデータ） (2025-02-07T04:24:07Z)
CodeVision: Detecting LLM-Generated Code Using 2D Token Probability Maps and Vision Models [28.711745671275477]
大規模言語モデル(LLM)の台頭により、自動コード生成が大幅に改善され、ソフトウェア開発の効率が向上した。事前訓練されたモデルや透かしなどの既存の検出方法は、適応性と計算効率の制限に直面している。本稿では,視覚モデルと組み合わせた2次元トークン確率マップを用いた新しい検出手法を提案する。
論文参考訳（メタデータ） (2025-01-06T06:15:10Z)
zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
本稿では,大言語モデル(LLM)と文埋め込みモデルを用いて,新たなゼロショット手法であるzsLLMCodeを提案する。その結果,最先端の教師なしアプローチに対する提案手法の有効性と優位性を実証した。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文参考訳（メタデータ） (2024-09-16T22:00:20Z)
Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文参考訳（メタデータ） (2024-07-24T16:33:04Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文参考訳（メタデータ） (2024-06-09T19:18:05Z)
Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code [4.956066467858057]
本研究では,Word2vec,BERT,RoBERTaを用いた自然言語処理(NLP)埋め込み技術を用いた脆弱性検出について検討する。長い短期記憶(LSTM)ニューラルネットワークは、Julietデータセットから約48kのLLVM関数を使用して生成されたエンコーダからの埋め込みをトレーニングした。
論文参考訳（メタデータ） (2024-05-31T03:57:19Z)
An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文参考訳（メタデータ） (2024-03-30T08:42:10Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文参考訳（メタデータ） (2023-11-15T14:15:30Z)
Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文参考訳（メタデータ） (2023-09-17T00:29:32Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。