論文の概要: Empirical Study of Code Large Language Models for Binary Security Patch Detection
- arxiv url: http://arxiv.org/abs/2509.06052v1
- Date: Sun, 07 Sep 2025 13:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.835672
- Title: Empirical Study of Code Large Language Models for Binary Security Patch Detection
- Title(参考訳): バイナリセキュリティパッチ検出のためのコード大言語モデルの実証的研究
- Authors: Qingyuan Li, Binchang Li, Cuiyun Gao, Shuzheng Gao, Zongjie Li,
- Abstract要約: セキュリティパッチ検出(SPD)はソフトウェアセキュリティの維持に不可欠である。
近年、多くの学習ベースのSPDアプローチがソースコードに有望な結果を示してきた。
しかし、これらのアプローチは、現実世界のソフトウェアの大部分を構成するクローズドソースアプリケーションやプロプライエタリシステムには適用できない。
- 参考スコア(独自算出の注目度): 12.110226735365643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Security patch detection (SPD) is crucial for maintaining software security, as unpatched vulnerabilities can lead to severe security risks. In recent years, numerous learning-based SPD approaches have demonstrated promising results on source code. However, these approaches typically cannot be applied to closed-source applications and proprietary systems that constitute a significant portion of real-world software, as they release patches only with binary files, and the source code is inaccessible. Given the impressive performance of code large language models (LLMs) in code intelligence and binary analysis tasks such as decompilation and compilation optimization, their potential for detecting binary security patches remains unexplored, exposing a significant research gap between their demonstrated low-level code understanding capabilities and this critical security task. To address this gap, we construct a large-scale binary patch dataset containing \textbf{19,448} samples, with two levels of representation: assembly code and pseudo-code, and systematically evaluate \textbf{19} code LLMs of varying scales to investigate their capability in binary SPD tasks. Our initial exploration demonstrates that directly prompting vanilla code LLMs struggles to accurately identify security patches from binary patches, and even state-of-the-art prompting techniques fail to mitigate the lack of domain knowledge in binary SPD within vanilla models. Drawing on the initial findings, we further investigate the fine-tuning strategy for injecting binary SPD domain knowledge into code LLMs through two levels of representation. Experimental results demonstrate that fine-tuned LLMs achieve outstanding performance, with the best results obtained on the pseudo-code representation.
- Abstract(参考訳): セキュリティパッチ検出(SPD)はソフトウェアセキュリティの維持に不可欠である。
近年、多くの学習ベースのSPDアプローチがソースコードに有望な結果を示してきた。
しかし、これらのアプローチは一般に、バイナリファイルのみでパッチをリリースし、ソースコードにアクセスできないため、実際のソフトウェアの大部分を構成するクローズドソースアプリケーションやプロプライエタリなシステムには適用できない。
コードインテリジェンスにおけるコード大言語モデル(LLM)のパフォーマンスと、デコンパイルやコンパイル最適化といったバイナリ分析タスクが著しく向上していることを考えると、バイナリセキュリティパッチを検出する可能性はまだ探索されていないままであり、低レベルのコード理解能力とこの重要なセキュリティタスクとの間には、重大な研究ギャップが明らかになっている。
このギャップに対処するために、我々は、アセンブリコードと擬似コードという2つのレベルの表現を持つ、 \textbf{19,448}サンプルを含む大規模なバイナリパッチデータセットを構築し、バイナリSPDタスクにおけるそれらの機能を調べるために、様々なスケールの \textbf{19}コードLLMを体系的に評価する。
最初の調査では、バニラコードの直接的なプロンプトはバイナリパッチからセキュリティパッチを正確に識別するのに苦労しており、最先端のプロンプト技術でさえ、バニラモデル内のバイナリSPDにおけるドメイン知識の欠如を軽減できないことが示されています。
そこで本研究では, 2段階の表現法を用いて, 2段階のSPDドメイン知識をコードLLMに注入するための微調整戦略について検討した。
実験により、微調整LDMは、擬似符号表現で得られる最良の結果により、優れた性能を発揮することが示された。
関連論文リスト
- Are AI-Generated Fixes Secure? Analyzing LLM and Agent Patches on SWE-bench [9.229310642804036]
我々は,SWE-benchデータセットから2万以上の問題を用いて,LLM生成パッチの大規模セキュリティ解析を行った。
スタンドアロンのLCM(Llama 3.3)によるパッチを評価し,開発者によるパッチと比較した。
また、データのサブセットに基づいて、トップパフォーマンスのエージェントフレームワーク(OpenHands、AutoCodeRover、HoneyComb)3つによって生成されたパッチのセキュリティを評価します。
論文 参考訳(メタデータ) (2025-06-30T21:10:19Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - VulBinLLM: LLM-powered Vulnerability Detection for Stripped Binaries [4.1417640577742425]
Vul-BinLLMは、大規模言語モデルを用いたバイナリ脆弱性検出のためのフレームワークである。
Vul-BinLLMは、拡張コンテキストで逆コンパイルと脆弱性推論を微妙に最適化することで、従来のバイナリ分析を反映している。
評価の結果,Vul-BinLLMはジュリエットデータセットの脆弱性の検出に極めて有効であることがわかった。
論文 参考訳(メタデータ) (2025-05-28T06:17:56Z) - An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-30T17:02:06Z) - Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries [2.696054049278301]
新しくコンパイルされたバイナリコード脆弱性データセットであるDeBinVulを紹介します。
DeBinVulを使って最先端のLLMを微調整し、バイナリコード脆弱性の検出においてパフォーマンスが19%、24%、21%向上したことを報告します。
論文 参考訳(メタデータ) (2024-11-07T18:54:31Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。