論文の概要: Llama-based source code vulnerability detection: Prompt engineering vs Fine tuning
- arxiv url: http://arxiv.org/abs/2512.09006v1
- Date: Tue, 09 Dec 2025 12:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.264391
- Title: Llama-based source code vulnerability detection: Prompt engineering vs Fine tuning
- Title(参考訳): Llamaベースのソースコード脆弱性検出: プロンプトエンジニアリングとファインチューニング
- Authors: Dyna Soumhane Ouchebara, Stéphane Dupont,
- Abstract要約: 大規模言語モデル(LLM)は、これまでで最も高性能なAIモデルであると考えられている。
それらの性能について検討し、その効果を高めるために様々な最先端技術を適用した。
我々は最近のオープンソースのLlama-3.1 8Bを活用し、BigVulデータセットとPrimeVulデータセットからソースコードサンプルを抽出した。
- 参考スコア(独自算出の注目度): 0.6588840794922407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The significant increase in software production, driven by the acceleration of development cycles over the past two decades, has led to a steady rise in software vulnerabilities, as shown by statistics published yearly by the CVE program. The automation of the source code vulnerability detection (CVD) process has thus become essential, and several methods have been proposed ranging from the well established program analysis techniques to the more recent AI-based methods. Our research investigates Large Language Models (LLMs), which are considered among the most performant AI models to date, for the CVD task. The objective is to study their performance and apply different state-of-the-art techniques to enhance their effectiveness for this task. We explore various fine-tuning and prompt engineering settings. We particularly suggest one novel approach for fine-tuning LLMs which we call Double Fine-tuning, and also test the understudied Test-Time fine-tuning approach. We leverage the recent open-source Llama-3.1 8B, with source code samples extracted from BigVul and PrimeVul datasets. Our conclusions highlight the importance of fine-tuning to resolve the task, the performance of Double tuning, as well as the potential of Llama models for CVD. Though prompting proved ineffective, Retrieval augmented generation (RAG) performed relatively well as an example selection technique. Overall, some of our research questions have been answered, and many are still on hold, which leaves us many future work perspectives. Code repository is available here: https://github.com/DynaSoumhaneOuchebara/Llama-based-vulnerability-detection.
- Abstract(参考訳): 過去20年間の開発サイクルの加速によって引き起こされた、ソフトウェア生産の大幅な増加は、毎年CVEプログラムによって公表されている統計によって示されるように、ソフトウェア脆弱性の着実に増加している。
このようにして、ソースコード脆弱性検出(CVD)プロセスの自動化が不可欠となり、確立されたプログラム分析技術から、より最近のAIベースの方法まで、いくつかの方法が提案されている。
CVDタスクにおいて,これまでで最も高性能なAIモデルであるLarge Language Models (LLMs) について検討した。
目的は,その性能を調査し,様々な最先端技術を適用し,その効果を高めることである。
さまざまな微調整と迅速なエンジニアリング設定について検討する。
特に,Double Fine-Tning(Double Fine-Time fine-Tning)と呼ぶ,ファインチューニングのための新しいアプローチを提案する。
我々は最近のオープンソースのLlama-3.1 8Bを活用し、BigVulデータセットとPrimeVulデータセットからソースコードサンプルを抽出した。
結論は,タスク解決のための微調整の重要性,ダブルチューニングの性能,CVDのためのLlamaモデルの可能性を強調した。
プロンプトは有効ではなかったが,レトリーバル・ジェネレーション(RAG)は比較的有効であった。
全体的に、我々の研究のいくつかの質問は答えられ、多くの質問はまだ保留中であり、将来的な作業の視点が残されている。
コードリポジトリは、https://github.com/DynaSoumhaneOuchebara/Llamaベースの脆弱性検出。
関連論文リスト
- Machine Learning Pipeline for Software Engineering: A Systematic Literature Review [0.0]
この系統的な文献レビューは、ソフトウェア工学(SE)用に設計された最先端の機械学習パイプラインを検証している。
この結果から,データバランシングのためのSMOTEなどの堅牢な前処理がモデルの信頼性を向上させることが示唆された。
ランダムフォレストやグラディエントブースティングのようなアンサンブルメソッドはタスク間でパフォーマンスを支配します。
Best Arithmetic Mean (BAM)のような新しいメトリクスはニッチなアプリケーションに現れている。
論文 参考訳(メタデータ) (2025-07-31T15:37:30Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - A Systematic Literature Review of Parameter-Efficient Fine-Tuning for Large Code Models [2.171120568435925]
コードのための大規模言語モデル(LLM)は、訓練と微調整のためにかなりの計算資源を必要とする。
この問題に対処するため,研究コミュニティは,より効率的なファインチューニング(PEFT)へと移行している。
PEFTは、モデル全体ではなく、パラメータの小さなサブセットだけを更新することで、大きなモデルの適応を可能にする。
本研究は,28の査読論文から得られた知見を合成し,構成戦略のパターンと適応トレードオフを同定する。
論文 参考訳(メタデータ) (2025-04-29T16:19:25Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。
我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文 参考訳(メタデータ) (2024-11-06T22:48:18Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - SCoPE: Evaluating LLMs for Software Vulnerability Detection [0.0]
この研究は、コード関連タスクのモデルをトレーニングするために一般的に使用されるCVEFixesデータセットを調査し、洗練する。
SCoPEが生成した出力はCVEFixesの新バージョンを作成するために使われた。
その結果,SCoPEは評価されたサブセット内の905個の複製の同定に有効であった。
論文 参考訳(メタデータ) (2024-07-19T15:02:00Z) - Cross Project Software Vulnerability Detection via Domain Adaptation and
Max-Margin Principle [21.684043656053106]
ソフトウェア脆弱性(SV)は、コンピュータソフトウェアの普及により、一般的で深刻な問題となっている。
これら2つの重要な問題に対処するための新しいエンドツーエンドアプローチを提案する。
提案手法は, SVDにおける最重要尺度であるF1尺度の精度を, 使用データセットの2番目に高い手法と比較して1.83%から6.25%に向上させる。
論文 参考訳(メタデータ) (2022-09-19T23:47:22Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。