論文の概要: Retrieval-Augmented Few-Shot Prompting Versus Fine-Tuning for Code Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2512.04106v1
- Date: Fri, 28 Nov 2025 12:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.77266
- Title: Retrieval-Augmented Few-Shot Prompting Versus Fine-Tuning for Code Vulnerability Detection
- Title(参考訳): コード脆弱性検出のための検索機能強化Few-Shot Prompting Versus Fine-Tuning
- Authors: Fouad Trad, Ali Chehab,
- Abstract要約: 大規模な言語モデルの能力を活用するための微調整の実用的な代替手段として、ほとんどショットプロンプトが登場していない。
コード脆弱性検出における少数ショット性能向上戦略として,検索強化プロンプトについて検討する。
- 参考スコア(独自算出の注目度): 0.8737375836744933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot prompting has emerged as a practical alternative to fine-tuning for leveraging the capabilities of large language models (LLMs) in specialized tasks. However, its effectiveness depends heavily on the selection and quality of in-context examples, particularly in complex domains. In this work, we examine retrieval-augmented prompting as a strategy to improve few-shot performance in code vulnerability detection, where the goal is to identify one or more security-relevant weaknesses present in a given code snippet from a predefined set of vulnerability categories. We perform a systematic evaluation using the Gemini-1.5-Flash model across three approaches: (1) standard few-shot prompting with randomly selected examples, (2) retrieval-augmented prompting using semantically similar examples, and (3) retrieval-based labeling, which assigns labels based on retrieved examples without model inference. Our results show that retrieval-augmented prompting consistently outperforms the other prompting strategies. At 20 shots, it achieves an F1 score of 74.05% and a partial match accuracy of 83.90%. We further compare this approach against zero-shot prompting and several fine-tuned models, including Gemini-1.5-Flash and smaller open-source models such as DistilBERT, DistilGPT2, and CodeBERT. Retrieval-augmented prompting outperforms both zero-shot (F1 score: 36.35%, partial match accuracy: 20.30%) and fine-tuned Gemini (F1 score: 59.31%, partial match accuracy: 53.10%), while avoiding the training time and cost associated with model fine-tuning. On the other hand, fine-tuning CodeBERT yields higher performance (F1 score: 91.22%, partial match accuracy: 91.30%) but requires additional training, maintenance effort, and resources.
- Abstract(参考訳): 大型言語モデル(LLM)の機能を活用するための微調整の実用的な代替として、ショットプロンプトが登場した。
しかし、その効果は、特に複雑な領域において、文脈内例の選択と品質に大きく依存する。
本研究では,コード脆弱性検出における少数ショットのパフォーマンス向上戦略として,事前に定義された脆弱性カテゴリの集合から,与えられたコードスニペットに存在する1つ以上のセキュリティ関連脆弱性を特定することを目的とした検索強化プロンプトについて検討する。
提案手法は,(1)ランダムに選択された例を用いた標準のショットプロンプト,(2)意味的に類似した例を用いた検索強化プロンプト,(3)モデル推論なしで検索された例に基づいてラベルをアサインする検索ベースラベルの3つのアプローチで,Gemini-1.5-Flashモデルを用いて体系的な評価を行う。
以上の結果から,検索強化プロンプトが他のプロンプト戦略より一貫して優れていたことが示唆された。
20ショットでF1スコア74.05%、部分一致精度83.90%に達する。
さらに, ゼロショットプロンプトやGemini-1.5-Flash, DistilBERT, DistilGPT2, CodeBERTなどの小型オープンソースモデルなど,いくつかの微調整モデルとの比較を行った。
検索強化はゼロショット(F1スコア:36.35%、部分一致精度:20.30%)と微調整ゲミニ(F1スコア:59.31%、部分一致精度:53.10%)の両方を上回り、モデルの微調整に伴うトレーニング時間とコストを回避している。
一方、微調整のCodeBERTは、より高いパフォーマンス(F1スコア:91.22%、部分一致精度:91.30%)を得るが、追加のトレーニング、メンテナンス、リソースを必要とする。
関連論文リスト
- Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Batch-in-Batch: a new adversarial training framework for initial perturbation and sample selection [9.241737058291823]
適応学習法は, 単純な一様分布から, 対向サンプルに対する独立な初期摂動を生成する。
モデルを強化するため,Batch-in-Batchと呼ばれるシンプルで効果的なトレーニングフレームワークを提案する。
BBフレームワーク内でトレーニングされたモデルは、様々な対角的設定において、常に高い対角的精度を有することを示す。
論文 参考訳(メタデータ) (2024-06-06T13:34:43Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Efficient, Uncertainty-based Moderation of Neural Networks Text
Classifiers [8.883733362171034]
本稿では,分類器の出力を効率よく操作できるフレームワークを提案する。
予測の不確実性を利用して、不確実で、おそらく不正確な分類を人間のモデレーターに渡す半自動化アプローチを提案する。
一連のベンチマーク実験により、我々のフレームワークは分類F1スコアを5.1から11.2%改善できることが示された。
論文 参考訳(メタデータ) (2022-04-04T09:07:54Z) - MIO : Mutual Information Optimization using Self-Supervised Binary Contrastive Learning [12.365801596593936]
我々は、事前学習タスクを二項分類問題としてモデル化し、暗黙的なコントラスト効果を誘導する。
既存の手法とは異なり、提案した損失関数は正対と負対の相互情報を最適化する。
提案手法は,ベンチマークデータセット上でのSOTA自己教師型コントラストフレームワークよりも優れている。
論文 参考訳(メタデータ) (2021-11-24T17:51:29Z) - Adaptive Verifiable Training Using Pairwise Class Similarity [17.89932271240133]
検証可能なトレーニングは、特定のノイズに対して確実に堅牢なニューラルネットワークの作成に成功しています。
しかしながら、単一のロバスト性基準を強制するにも関わらず、そのパフォーマンスはデータセットの複雑さに乏しい。
クラス間の類似性を利用して検証可能なトレーニングのパフォーマンスを向上させる新しいアプローチを提案します。
論文 参考訳(メタデータ) (2020-12-14T19:10:30Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。