Fugu-MT 論文翻訳(概要): Evaluating Large Language Models in Vulnerability Detection Under Variable Context Windows

論文の概要: Evaluating Large Language Models in Vulnerability Detection Under Variable Context Windows

arxiv url: http://arxiv.org/abs/2502.00064v1
Date: Thu, 30 Jan 2025 20:44:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:53.137439
Title: Evaluating Large Language Models in Vulnerability Detection Under Variable Context Windows
Title（参考訳）: 可変環境環境下での脆弱性検出における大規模言語モデルの評価
Authors: Jie Lin, David Mohaisen,
Abstract要約: 本研究では,トークン化されたJavaコード長が脆弱性検出における10のLLMの精度と明示性に与える影響について検討した。 GPT-4やMistral,Mixtralといったモデル間の不整合は堅牢性を示すものもあれば,トークン化長とパフォーマンスとの間に重要な相関性を示すものもある。
参考スコア（独自算出の注目度）: 17.088307683654577
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This study examines the impact of tokenized Java code length on the accuracy and explicitness of ten major LLMs in vulnerability detection. Using chi-square tests and known ground truth, we found inconsistencies across models: some, like GPT-4, Mistral, and Mixtral, showed robustness, while others exhibited a significant link between tokenized length and performance. We recommend future LLM development focus on minimizing the influence of input length for better vulnerability detection. Additionally, preprocessing techniques that reduce token count while preserving code structure could enhance LLM accuracy and explicitness in these tasks.
Abstract（参考訳）: 本研究では,トークン化されたJavaコード長が脆弱性検出における10のLLMの精度と明示性に与える影響について検討した。 GPT-4やMistral,Mixtralといったモデルでは堅牢性を示すものもあれば,トークン化された長さとパフォーマンスとの間に大きな相関性を示すものもあるのです。我々は、入力長の影響を最小限に抑え、脆弱性検出を改善することに焦点を当てた将来のLLM開発を推奨する。さらに、コード構造を保ちながらトークン数を削減できる前処理技術は、これらのタスクにおけるLCMの精度と明示性を向上させる可能性がある。

関連論文リスト

Visualizing token importance for black-box language models [48.747801442240565]
我々は,ブラックボックスの大規模言語モデル(LLM)を監査して,本運用環境にデプロイした場合に確実に動作させるという課題を考察する。本稿では,各入力トークンに対する言語モデルの出力の感度を評価するために,分布ベース感性分析(DBSA)を提案する。
論文参考訳（メタデータ） (2025-12-12T14:01:43Z)
LLM-based Vulnerability Discovery through the Lens of Code Metrics [6.339440992743381]
大規模言語モデル(LLM)は、ソフトウェア工学の多くのタスクに優れています。脆弱性発見に活用する進歩は近年停滞しています。
論文参考訳（メタデータ） (2025-09-23T15:03:05Z)
LLMxCPG: Context-Aware Vulnerability Detection Through Code Property Graph-Guided Large Language Models [2.891351178680099]
本稿では,コードプロパティグラフ(CPG)とLarge Language Models(LLM)を統合し,堅牢な脆弱性検出を行う新しいフレームワークを提案する。より簡潔で正確なコードスニペット表現を提供するアプローチの能力は、より大きなコードセグメントの分析を可能にします。実証的な評価は、検証済みデータセット間でLLMxCPGの有効性を示し、最先端のベースラインよりもF1スコアが15～40%改善されている。
論文参考訳（メタデータ） (2025-07-22T13:36:33Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文参考訳（メタデータ） (2025-03-12T14:30:05Z)
What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
本研究では,LLM を悪用する特殊文字を用いたインジェクション攻撃の一種である,知覚不能な文字攻撃に対する特定の LLM 脆弱性について検討する。攻撃の4つのカテゴリを考案し、コード解析とコード理解に関連するタスクのパフォーマンスへの影響について検討する。
論文参考訳（メタデータ） (2024-12-11T04:52:41Z)
If LLMs Would Just Look: Simple Line-by-line Checking Improves Vulnerability Localization [33.42741297088634]
手動のコード監査やルールベースのツールなど、従来の脆弱性のローカライゼーションの方法は、多くの場合、時間をかけてスコープに制限される。本稿では,大規模言語モデルに固有の自己認識機構を活用する新しいフレームワークであるLOVAを紹介する。 LOVA は既存の LLM ベースのアプローチよりも大幅に優れており,F1 スコアの最大 5.3 倍の改善が達成されている。
論文参考訳（メタデータ） (2024-10-20T05:02:18Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。 CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文参考訳（メタデータ） (2024-06-10T00:05:49Z)
Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文参考訳（メタデータ） (2024-06-09T19:18:05Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models [48.35385912526338]
本稿では,入力長がLarge Language Models(LLMs)の能力に与える影響について検討する。同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパディングで拡張した。劣化傾向はデータセットのすべてのバージョンに現れるが、強度は異なる。
論文参考訳（メタデータ） (2024-02-19T16:04:53Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。