Fugu-MT 論文翻訳(概要): On Selecting Few-Shot Examples for LLM-based Code Vulnerability Detection

論文の概要: On Selecting Few-Shot Examples for LLM-based Code Vulnerability Detection

arxiv url: http://arxiv.org/abs/2510.27675v1
Date: Fri, 31 Oct 2025 17:41:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-03 17:52:16.192762
Title: On Selecting Few-Shot Examples for LLM-based Code Vulnerability Detection
Title（参考訳）: LLMに基づくコード脆弱性検出のためのFew-Shot例の選択について
Authors: Md Abdul Hannan, Ronghao Ni, Chi Zhang, Limin Jia, Ravi Mangal, Corina S. Pasareanu,
Abstract要約: 大規模言語モデル(LLM)は、多くのコーディングタスクにおいて印象的な機能を示している。コードの脆弱性を検出することは、LLMにとって難しい課題である。 In-context Learning (ICL)は、クエリと同様のサンプルと正しい回答を提供する。
参考スコア（独自算出の注目度）: 8.460805514983816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated impressive capabilities for many coding tasks, including summarization, translation, completion, and code generation. However, detecting code vulnerabilities remains a challenging task for LLMs. An effective way to improve LLM performance is in-context learning (ICL) - providing few-shot examples similar to the query, along with correct answers, can improve an LLM's ability to generate correct solutions. However, choosing the few-shot examples appropriately is crucial to improving model performance. In this paper, we explore two criteria for choosing few-shot examples for ICL used in the code vulnerability detection task. The first criterion considers if the LLM (consistently) makes a mistake or not on a sample with the intuition that LLM performance on a sample is informative about its usefulness as a few-shot example. The other criterion considers similarity of the examples with the program under query and chooses few-shot examples based on the $k$-nearest neighbors to the given sample. We perform evaluations to determine the benefits of these criteria individually as well as under various combinations, using open-source models on multiple datasets.
Abstract（参考訳）: 大規模言語モデル(LLM)は、要約、翻訳、完了、コード生成など、多くのコーディングタスクにおいて印象的な機能を示している。しかし、コード脆弱性の検出はLLMにとって難しい課題である。 LLMのパフォーマンスを改善する効果的な方法は、ICL(In-context Learning)であり、クエリに類似したわずかな例と正しい回答を提供することで、LLMが正しいソリューションを生成する能力を向上させることができる。しかし、いくつかの例を適切に選択することは、モデルパフォーマンスを改善する上で非常に重要です。本稿では,コード脆弱性検出タスクで使用されるICLの少数例を選択するための2つの基準について検討する。第1の基準は、LLMがサンプル上で誤りを犯したか否かを、サンプル上でのLLMのパフォーマンスが、数ショットの例として有用性について情報的であるという直感で考慮する。別の基準では、サンプルとクエリ中のプログラムの類似性を考慮し、与えられたサンプルに対して$k$-nearestの隣人に基づいて、いくつかの例を選択する。複数のデータセット上のオープンソースモデルを用いて、これらの基準の利点を個別に判定し、様々な組み合わせで評価する。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
MAPLE: Many-Shot Adaptive Pseudo-Labeling for In-Context Learning [53.02571749383208]
In-Context Learning (ICL)は、大規模言語モデル(LLM)に複数のインプット・アウトプット・サンプルを組み込むことで、多様なタスクに対処する権限を与える。 Many-Shot Adaptive Pseudo-LabEling (MAPLE)は、ラベル情報の欠如を補うために擬似ラベル付きサンプルを利用する新しいインフルエンスベースのマルチショットICLフレームワークである。
論文参考訳（メタデータ） (2025-05-22T04:54:27Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
Efficient Evaluation of Large Language Models via Collaborative Filtering [25.734508624520164]
大規模言語モデル(LLM)は、異なるLLMの能力を測定し比較するために提案されている。 LLMの評価は、多数のテストインスタンスと遅い推論速度のためにコストがかかる。与えられたベンチマーク上でモデルの実性能を効率的に推定する2段階手法を提案する。
論文参考訳（メタデータ） (2025-04-05T07:46:30Z)
The First Prompt Counts the Most! An Evaluation of Large Language Models on Iterative Example-Based Code Generation [33.77058239791512]
本稿では,Large Language Models (LLMs) を用いたサンプルベースコード生成の総合的研究について述べる。我々は、反復評価フレームワークを採用し、サンプルベースのコード生成の目的を2つの連続的なサブオブジェクトとして定式化する。我々は、172の多様な目標関数のベンチマークを用いて、最先端のLLMを6つ評価した。
論文参考訳（メタデータ） (2024-11-11T08:05:37Z)
In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting [33.89176174108559]
大規模言語モデル(LLM)の文脈内学習は、いくつかの例で拡張された命令に基づいて予測を行う。 ICLの既存の例選択方法はスパースまたは高密度レトリバーを使用し、有効性能を導出する。本稿では,言語モデルセレクタとLLMジェネレータから構成される実例選択(RLS)のためのポリシーベース強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-23T12:32:12Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Experimental Design for Active Transductive Inference in Large Language Models [18.2671641610825]
適応的なプロンプト設計にアクティブラーニングを使用し、それをアクティブ・インコンテクスト・プロンプト・デザイン(AIPD)と呼ぶ。テストセットの性能を最適化するために、トレーニングセットから少数ショット例を適応的に選択し、LCMプロンプトを設計する。 GOとSALの2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-12T23:27:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。