論文の概要: StriderSPD: Structure-Guided Joint Representation Learning for Binary Security Patch Detection
- arxiv url: http://arxiv.org/abs/2601.05772v1
- Date: Fri, 09 Jan 2026 12:55:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.970726
- Title: StriderSPD: Structure-Guided Joint Representation Learning for Binary Security Patch Detection
- Title(参考訳): StriderSPD:バイナリセキュリティパッチ検出のための構造誘導型共同表現学習
- Authors: Qingyuan Li, Chenchen Yu, Chuanyi Li, Xin-Cheng Wen, Cheryl Lee, Cuiyun Gao, Bin Luo,
- Abstract要約: セキュリティパッチ検出(SPD)は、ソフトウェア資産を保護する。
ほとんどのSPD研究はオープンソースソフトウェア(OSS)をターゲットにしているが、実際のソフトウェアの大部分はクローズドソースである。
グラフブランチを大きな言語モデルに統合するバイナリコードのフレームワークである textbftextitStriderSPD を提案する。
- 参考スコア(独自算出の注目度): 22.120085662911194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vulnerabilities severely threaten software systems, making the timely application of security patches crucial for mitigating attacks. However, software vendors often silently patch vulnerabilities with limited disclosure, where Security Patch Detection (SPD) comes to protect software assets. Recently, most SPD studies have targeted Open-Source Software (OSS), yet a large portion of real-world software is closed-source, where patches are distributed as binaries without accessible source code. The limited binary SPD approaches often lift binaries to abstraction levels, i.e., assembly code or pseudo-code. However, assembly code is register-based instructions conveying limited semantics, while pseudo-code lacks parser-compatible grammar to extract structure, both hindering accurate vulnerability-fix representation learning. In addition, previous studies often obtain training and testing data from the same project for evaluation, which fails to reflect closed-source conditions. To alleviate the above challenges, we propose \textbf{\textit{StriderSPD}}, a \underline{Str}ucture-gu\underline{ide}d joint \underline{r}epresentation \underline{SPD} framework of binary code that integrates a graph branch into a large language model (LLM), leveraging structural information to guide the LLM in identifying security patches. Our novel design of the adapters in the graph branch effectively aligns the representations between assembly code and pseudo-code at the LLM's token level. We further present a two-stage training strategy to address the optimization imbalance caused by the large parameter disparity between StriderSPD's two branches, which enables proper branch fitting. To enable more realistic evaluation, we construct a binary SPD benchmark that is disjoint from prior datasets in both projects and domains and extensively evaluate StriderSPD on this benchmark.
- Abstract(参考訳): 脆弱性はソフトウェアシステムに深刻な脅威を与え、攻撃を緩和するためにはセキュリティパッチのタイムリーな適用が不可欠である。
しかしながら、ソフトウェアベンダは、セキュリティパッチ検出(SPD)がソフトウェア資産を保護するために来る、限られた開示で脆弱性を静かにパッチすることが多い。
最近のSPD研究はオープンソースソフトウェア(OSS)をターゲットにしているが、実際のソフトウェアの大部分はクローズドソースであり、パッチはソースコードにアクセスできないバイナリとして配布されている。
制限されたバイナリSPDアプローチは、バイナリを抽象化レベル(アセンブリコードや擬似コードなど)に引き上げることが多い。
しかし、アセンブリコードは限られた意味を伝達するレジスタベースの命令であり、擬似コードは構造を抽出するパーサ互換文法に欠けており、どちらも正確な脆弱性修正表現学習を妨げる。
さらに、以前の研究では、同じプロジェクトからトレーニングデータとテストデータを取得して、クローズドソース条件を反映しない場合が多い。
上記の課題を解決するために,グラフブランチを大規模言語モデル (LLM) に統合したバイナリコードで,セキュリティパッチの識別にLLMをガイドするための構造情報を活用するために,構造情報を活用する。
LLMのトークンレベルにおけるアセンブリコードと擬似コードとの表現を効果的に整合させる。
さらに,StriderSPDの2つの分岐間のパラメータの相違が原因で生じる最適化の不均衡に対処する2段階のトレーニング戦略を提案する。
より現実的な評価を可能にするために、プロジェクトとドメインの双方の以前のデータセットから切り離されたバイナリSPDベンチマークを構築し、このベンチマークでStriderSPDを広範囲に評価する。
関連論文リスト
- The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Binary Diff Summarization using Large Language Models [17.877160310535942]
大型言語モデル(LLM)は、従来のツールを拡張するためにバイナリ分析に適用されている。
LLMを用いた二項差分要約のための新しいフレームワークを提案する。
6つのオープンソースプロジェクトに3つの異なるマルウェアを注入することで、ソフトウェアサプライチェーンセキュリティベンチマークを作成します。
論文 参考訳(メタデータ) (2025-09-28T16:47:24Z) - Empirical Study of Code Large Language Models for Binary Security Patch Detection [12.110226735365643]
セキュリティパッチ検出(SPD)はソフトウェアセキュリティの維持に不可欠である。
近年、多くの学習ベースのSPDアプローチがソースコードに有望な結果を示してきた。
しかし、これらのアプローチは、現実世界のソフトウェアの大部分を構成するクローズドソースアプリケーションやプロプライエタリシステムには適用できない。
論文 参考訳(メタデータ) (2025-09-07T13:31:43Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - BinGo: Identifying Security Patches in Binary Code with Graph
Representation Learning [19.22004583230725]
バイナリコードに対する新しいセキュリティパッチ検出システムであるBinGoを提案する。
BinGoは、パッチデータ前処理、グラフ抽出、埋め込み生成、グラフ表現学習の4つのフェーズで構成されている。
実験の結果、BinGoは隣り合う2つのバイナリコードのセキュリティパッチを80.77%の精度で識別できることがわかった。
論文 参考訳(メタデータ) (2023-12-13T06:35:39Z) - Just-in-Time Detection of Silent Security Patches [7.840762542485285]
セキュリティパッチは黙秘される可能性がある。つまり、CVEのような包括的なアドバイザリを常に備えているわけではない。
この透明性の欠如により、ユーザーは利用可能なセキュリティアップデートを気にせず、攻撃者が未パッチの脆弱性を悪用する十分な機会を提供する。
本稿では,大規模言語モデル(LLM)を活用して,生成されたコード変更説明を用いてパッチ情報を拡張することを提案する。
論文 参考訳(メタデータ) (2023-12-02T22:53:26Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。