論文の概要: LogicEval: A Systematic Framework for Evaluating Automated Repair Techniques for Logical Vulnerabilities in Real-World Software
- arxiv url: http://arxiv.org/abs/2604.12994v2
- Date: Thu, 23 Apr 2026 02:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:05.973407
- Title: LogicEval: A Systematic Framework for Evaluating Automated Repair Techniques for Logical Vulnerabilities in Real-World Software
- Title(参考訳): LogicEval: リアルタイムソフトウェアにおける論理脆弱性の自動修復手法の評価のためのシステムフレームワーク
- Authors: Syed Md Mukit Rashid, Abdullah Al Ishtiaq, Kai Tu, Yilu Dong, Tianwei Wu, Ali Ranjbar, Tianchang Yang, Najrin Sultana, Shagufta Mehnaz, Syed Rafiul Hussain,
- Abstract要約: 実世界の論理的脆弱性に対処するために,従来の言語モデルと大規模言語モデル(LLM)の両方を評価することを目的としている。
評価を容易にするため、我々は122の論理的脆弱性を含む最初のデータセットLogicDSを作成しました。
また、論理的脆弱性に対するパッチを評価するための体系的なフレームワークであるLogicEvalを開発した。
- 参考スコア(独自算出の注目度): 14.532724428995111
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Logical vulnerabilities in software stem from flaws in program logic rather than memory safety, which can lead to critical security failures. Although existing automated program repair techniques primarily focus on repairing memory corruption vulnerabilities, they struggle with logical vulnerabilities because of their limited semantic understanding of the vulnerable code and its expected behavior. On the other hand, recent successes of large language models (LLMs) in understanding and repairing code are promising. However, no framework currently exists to analyze the capabilities and limitations of such techniques for logical vulnerabilities. We aim to systematically evaluate both traditional and LLM based repair approaches for addressing real world logical vulnerabilities. To facilitate our assessment, we created the first ever dataset, LogicDS, comprising 122 logical vulnerabilities that reflect tangible security impact. We also developed a systematic framework, LogicEval, to evaluate patches for logical vulnerabilities. Evaluations suggest that compilation and testing failures are primarily driven by prompt sensitivity, loss of code context, and difficulty in patch localization.
- Abstract(参考訳): ソフトウェアにおける論理的脆弱性は、メモリ安全性よりもプログラムロジックの欠陥に起因する。
既存の自動プログラム修復技術は、主にメモリ破損の脆弱性の修復に重点を置いているが、脆弱性コードのセマンティック理解の制限と期待された振る舞いのために、論理的脆弱性に悩まされている。
一方、コードの理解と修復における大規模言語モデル(LLM)の最近の成功は有望である。
しかしながら、論理的脆弱性に対するそのようなテクニックの機能と制限を分析するためのフレームワークは、今のところ存在しない。
実世界の論理的脆弱性に対処するために,従来のLLMベースの修復手法とLLMベースの修復手法の両方を体系的に評価することを目的としている。
評価を容易にするため、私たちは、具体的なセキュリティ影響を反映した122の論理的脆弱性を含む、最初のデータセットであるLogicDSを作成しました。
また、論理的脆弱性に対するパッチを評価するための体系的なフレームワークであるLogicEvalを開発した。
評価によると、コンパイルとテストの失敗は、主に、迅速な感度、コードコンテキストの喪失、パッチのローカライゼーションの難しさによって引き起こされる。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - A Prompt-Based Framework for Loop Vulnerability Detection Using Local LLMs [0.0]
本研究では,Python 3.7以上のコード中のループ脆弱性を検出するためのプロンプトベースのフレームワークを提案する。
このフレームワークは、制御とロジックのエラー、ループ内のセキュリティリスク、リソース管理の非効率といった、ループ関連の問題の3つのカテゴリをターゲットにしている。
設計されたプロンプトベースのフレームワークには、言語固有の認識、コード認識の接地、バージョン感度、幻覚予防といった重要な保護機能が含まれていた。
論文 参考訳(メタデータ) (2026-01-21T04:53:38Z) - Revisiting Vulnerability Patch Localization: An Empirical Study and LLM-Based Solution [44.388332647211776]
オープンソースのソフトウェア脆弱性検出は、ソフトウェアのセキュリティを維持し、ソフトウェアサプライチェーンの整合性を確保するための重要なコンポーネントである。
従来の検出方法は、大量のコミット履歴を処理する際に、大きなスケーラビリティの課題に直面している。
バージョン駆動型候補フィルタリングと大規模言語モデルに基づく多ラウンド対話投票を組み合わせた新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-19T09:09:55Z) - Weakly Supervised Vulnerability Localization via Multiple Instance Learning [46.980136742826836]
WeAkly によるマルチプルインスタンス学習による脆弱性ローカライゼーションのための WAVES という新しい手法を提案する。
WAVESは、ある関数が脆弱かどうか(すなわち脆弱性検出)を判定し、脆弱なステートメントをピンポイントする機能を持っている。
提案手法は,文レベルの脆弱性ローカライゼーションにおいて,脆弱性検出と最先端のパフォーマンスにおいて同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-14T15:11:39Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - VulBinLLM: LLM-powered Vulnerability Detection for Stripped Binaries [4.1417640577742425]
Vul-BinLLMは、大規模言語モデルを用いたバイナリ脆弱性検出のためのフレームワークである。
Vul-BinLLMは、拡張コンテキストで逆コンパイルと脆弱性推論を微妙に最適化することで、従来のバイナリ分析を反映している。
評価の結果,Vul-BinLLMはジュリエットデータセットの脆弱性の検出に極めて有効であることがわかった。
論文 参考訳(メタデータ) (2025-05-28T06:17:56Z) - CRepair: CVAE-based Automatic Vulnerability Repair Technology [1.147605955490786]
ソフトウェア脆弱性は、現代のソフトウェアとそのアプリケーションデータの完全性、セキュリティ、信頼性に重大な脅威をもたらす。
脆弱性修復の課題に対処するため、研究者らは、学習に基づく自動脆弱性修復技術が広く注目を集めるなど、様々な解決策を提案している。
本稿では,システムコードのセキュリティ脆弱性を修正することを目的としたCVAEベースの自動脆弱性修復技術であるCRepairを提案する。
論文 参考訳(メタデータ) (2024-11-08T12:55:04Z) - Line-level Semantic Structure Learning for Code Vulnerability Detection [44.29771620061153]
ラインレベルのセマンティックラーニングを通じて,コード構造認識ネットワークを導入する。
コード前処理、グローバルセマンティック認識、ラインセマンティック認識、ラインセマンティック構造認識の4つのコンポーネントから構成される。
CSLSモデルは、コード脆弱性検出における最先端のベースラインを上回り、Devignデータセットで70.57%、Revealデータセットで49.59%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-26T17:15:58Z) - HW-V2W-Map: Hardware Vulnerability to Weakness Mapping Framework for
Root Cause Analysis with GPT-assisted Mitigation Suggestion [3.847218857469107]
HW-V2W-Map Frameworkは、ハードウェア脆弱性とIoT(Internet of Things)セキュリティに焦点を当てた機械学習(ML)フレームワークである。
私たちが提案したアーキテクチャには,オントロジーを更新するプロセスを自動化する,オントロジー駆動のストーリテリングフレームワークが組み込まれています。
提案手法は,GPT (Generative Pre-trained Transformer) Large Language Models (LLMs) を用いて緩和提案を行った。
論文 参考訳(メタデータ) (2023-12-21T02:14:41Z) - SecureFalcon: Are We There Yet in Automated Software Vulnerability Detection with LLMs? [3.566250952750758]
SecureFalconは、Falcon-40Bモデルから派生した1億1100万のパラメータしか持たない革新的なモデルアーキテクチャである。
SecureFalconはバイナリ分類で94%の精度、マルチクラス化で最大92%、即時CPU推論時間を実現している。
論文 参考訳(メタデータ) (2023-07-13T08:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。