論文の概要: Binary Diff Summarization using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.23970v1
- Date: Sun, 28 Sep 2025 16:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.56244
- Title: Binary Diff Summarization using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたバイナリディフ要約
- Authors: Meet Udeshi, Venkata Sai Charan Putrevu, Prashanth Krishnamurthy, Prashant Anantharaman, Sean Carrick, Ramesh Karri, Farshad Khorrami,
- Abstract要約: 大型言語モデル(LLM)は、従来のツールを拡張するためにバイナリ分析に適用されている。
LLMを用いた二項差分要約のための新しいフレームワークを提案する。
6つのオープンソースプロジェクトに3つの異なるマルウェアを注入することで、ソフトウェアサプライチェーンセキュリティベンチマークを作成します。
- 参考スコア(独自算出の注目度): 17.877160310535942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Security of software supply chains is necessary to ensure that software updates do not contain maliciously injected code or introduce vulnerabilities that may compromise the integrity of critical infrastructure. Verifying the integrity of software updates involves binary differential analysis (binary diffing) to highlight the changes between two binary versions by incorporating binary analysis and reverse engineering. Large language models (LLMs) have been applied to binary analysis to augment traditional tools by producing natural language summaries that cybersecurity experts can grasp for further analysis. Combining LLM-based binary code summarization with binary diffing can improve the LLM's focus on critical changes and enable complex tasks such as automated malware detection. To address this, we propose a novel framework for binary diff summarization using LLMs. We introduce a novel functional sensitivity score (FSS) that helps with automated triage of sensitive binary functions for downstream detection tasks. We create a software supply chain security benchmark by injecting 3 different malware into 6 open-source projects which generates 104 binary versions, 392 binary diffs, and 46,023 functions. On this, our framework achieves a precision of 0.98 and recall of 0.64 for malware detection, displaying high accuracy with low false positives. Across malicious and benign functions, we achieve FSS separation of 3.0 points, confirming that FSS categorization can classify sensitive functions. We conduct a case study on the real-world XZ utils supply chain attack; our framework correctly detects the injected backdoor functions with high FSS.
- Abstract(参考訳): ソフトウェアサプライチェーンのセキュリティは、ソフトウェアアップデートが悪意あるインジェクトされたコードを含んでいないことや、重要なインフラストラクチャの整合性を損なう可能性のある脆弱性を導入することを保証するために必要である。
ソフトウェア更新の完全性を検証するには、バイナリ分析とリバースエンジニアリングを組み込むことで、2つのバイナリバージョン間の変更をハイライトするバイナリ差分解析(バイナリ差分処理)が含まれる。
大規模言語モデル(LLM)は、サイバーセキュリティの専門家がさらなる分析のために把握できる自然言語要約を生成することによって、従来のツールを強化するバイナリ分析に適用されている。
LLMベースのバイナリコード要約とバイナリディファリングを組み合わせることで、LLMのクリティカルな変更へのフォーカスを改善し、自動マルウェア検出などの複雑なタスクを可能にする。
そこで本研究では,LLMを用いた二分差分要約のための新しいフレームワークを提案する。
本稿では,下流検出タスクのための2値関数の自動トリアージを支援する機能感度スコア(FSS)を提案する。
我々は、104のバイナリバージョン、392のバイナリディフ、46,023の関数を生成する6つのオープンソースプロジェクトに3つの異なるマルウェアを注入して、ソフトウェアサプライチェーンセキュリティベンチマークを作成する。
そこで本手法では,マルウェア検出のための精度0.98,リコール0.64を実現し,偽陽性が低い精度で表示する。
悪意のある機能と良性のある機能にまたがって、FSSが3.0点の分離を実現し、FSS分類がセンシティブな機能に分類できることを確認した。
我々は,実世界のXZがサプライチェーン攻撃を利用したケーススタディを行い,高いFSSで注入されたバックドア関数を正確に検出する。
関連論文リスト
- Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。
脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:48:22Z) - Empirical Study of Code Large Language Models for Binary Security Patch Detection [12.110226735365643]
セキュリティパッチ検出(SPD)はソフトウェアセキュリティの維持に不可欠である。
近年、多くの学習ベースのSPDアプローチがソースコードに有望な結果を示してきた。
しかし、これらのアプローチは、現実世界のソフトウェアの大部分を構成するクローズドソースアプリケーションやプロプライエタリシステムには適用できない。
論文 参考訳(メタデータ) (2025-09-07T13:31:43Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - VulBinLLM: LLM-powered Vulnerability Detection for Stripped Binaries [4.1417640577742425]
Vul-BinLLMは、大規模言語モデルを用いたバイナリ脆弱性検出のためのフレームワークである。
Vul-BinLLMは、拡張コンテキストで逆コンパイルと脆弱性推論を微妙に最適化することで、従来のバイナリ分析を反映している。
評価の結果,Vul-BinLLMはジュリエットデータセットの脆弱性の検出に極めて有効であることがわかった。
論文 参考訳(メタデータ) (2025-05-28T06:17:56Z) - Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。
このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。
Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文 参考訳(メタデータ) (2025-03-22T23:59:17Z) - Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries [2.696054049278301]
新しくコンパイルされたバイナリコード脆弱性データセットであるDeBinVulを紹介します。
DeBinVulを使って最先端のLLMを微調整し、バイナリコード脆弱性の検出においてパフォーマンスが19%、24%、21%向上したことを報告します。
論文 参考訳(メタデータ) (2024-11-07T18:54:31Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching [8.655595404611821]
BinaryAIは2フェーズのバイナリソースコードマッチングを備えた新しいバイナリ・ソースSCA技術で、構文的および意味的両方のコード特徴をキャプチャする。
実験の結果、バイナリソースコードマッチングと下流SCAタスクにおいて、BinaryAIの優れた性能を示しました。
論文 参考訳(メタデータ) (2024-01-20T07:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。