Fugu-MT 論文翻訳(概要): BinGo: Identifying Security Patches in Binary Code with Graph Representation Learning

論文の概要: BinGo: Identifying Security Patches in Binary Code with Graph Representation Learning

arxiv url: http://arxiv.org/abs/2312.07921v1
Date: Wed, 13 Dec 2023 06:35:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 16:36:17.792792
Title: BinGo: Identifying Security Patches in Binary Code with Graph Representation Learning
Title（参考訳）: BinGo:グラフ表現学習によるバイナリコードのセキュリティパッチの識別
Authors: Xu He, Shu Wang, Pengbin Feng, Xinda Wang, Shiyu Sun, Qi Li, Kun Sun
Abstract要約: バイナリコードに対する新しいセキュリティパッチ検出システムであるBinGoを提案する。 BinGoは、パッチデータ前処理、グラフ抽出、埋め込み生成、グラフ表現学習の4つのフェーズで構成されている。実験の結果、BinGoは隣り合う2つのバイナリコードのセキュリティパッチを80.77%の精度で識別できることがわかった。
参考スコア（独自算出の注目度）: 19.22004583230725
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A timely software update is vital to combat the increasing security vulnerabilities. However, some software vendors may secretly patch their vulnerabilities without creating CVE entries or even describing the security issue in their change log. Thus, it is critical to identify these hidden security patches and defeat potential N-day attacks. Researchers have employed various machine learning techniques to identify security patches in open-source software, leveraging the syntax and semantic features of the software changes and commit messages. However, all these solutions cannot be directly applied to the binary code, whose instructions and program flow may dramatically vary due to different compilation configurations. In this paper, we propose BinGo, a new security patch detection system for binary code. The main idea is to present the binary code as code property graphs to enable a comprehensive understanding of program flow and perform a language model over each basic block of binary code to catch the instruction semantics. BinGo consists of four phases, namely, patch data pre-processing, graph extraction, embedding generation, and graph representation learning. Due to the lack of an existing binary security patch dataset, we construct such a dataset by compiling the pre-patch and post-patch source code of the Linux kernel. Our experimental results show BinGo can achieve up to 80.77% accuracy in identifying security patches between two neighboring versions of binary code. Moreover, BinGo can effectively reduce the false positives and false negatives caused by the different compilers and optimization levels.
Abstract（参考訳）: セキュリティ上の脆弱性の増大に対処するには,タイムリーなソフトウェアアップデートが不可欠だ。しかし、一部のソフトウェアベンダーは、CVEエントリを作成したり、変更ログにセキュリティ問題を記述することなく、秘密裏に脆弱性をパッチする可能性がある。したがって、これらの隠れたセキュリティパッチを特定し、N日攻撃の可能性を打ち負かすことが重要である。研究者たちは、さまざまな機械学習技術を使用して、オープンソースソフトウェアのセキュリティパッチを特定し、ソフトウェアの変更とコミットメッセージの構文と意味的特徴を活用する。しかし、これらすべてのソリューションはバイナリコードに直接適用できず、その命令とプログラムフローは異なるコンパイル構成のために劇的に異なる可能性がある。本稿では,バイナリコードに対する新しいセキュリティパッチ検出システムであるBinGoを提案する。主なアイデアは、バイナリコードをコードプロパティグラフとして提示し、プログラムフローを包括的に理解し、インストラクションセマンティクスを取得するためにバイナリコードのブロックごとに言語モデルを実行することである。 BinGoは、パッチデータ前処理、グラフ抽出、埋め込み生成、グラフ表現学習の4つのフェーズで構成されている。既存のバイナリセキュリティパッチデータセットがないため、Linuxカーネルの事前パッチと後パッチのソースコードをコンパイルすることで、そのようなデータセットを構築します。実験の結果、BinGoは隣り合う2つのバイナリコードのセキュリティパッチを80.77%の精度で識別できることがわかった。さらに、BinGoは、異なるコンパイラと最適化レベルに起因する偽陽性と偽陰性を効果的に削減できる。

関連論文リスト

StriderSPD: Structure-Guided Joint Representation Learning for Binary Security Patch Detection [22.120085662911194]
セキュリティパッチ検出(SPD)は、ソフトウェア資産を保護する。ほとんどのSPD研究はオープンソースソフトウェア(OSS)をターゲットにしているが、実際のソフトウェアの大部分はクローズドソースである。グラフブランチを大きな言語モデルに統合するバイナリコードのフレームワークである textbftextitStriderSPD を提案する。
論文参考訳（メタデータ） (2026-01-09T12:55:29Z)
Binary Diff Summarization using Large Language Models [17.877160310535942]
大型言語モデル(LLM)は、従来のツールを拡張するためにバイナリ分析に適用されている。 LLMを用いた二項差分要約のための新しいフレームワークを提案する。 6つのオープンソースプロジェクトに3つの異なるマルウェアを注入することで、ソフトウェアサプライチェーンセキュリティベンチマークを作成します。
論文参考訳（メタデータ） (2025-09-28T16:47:24Z)
Empirical Study of Code Large Language Models for Binary Security Patch Detection [12.110226735365643]
セキュリティパッチ検出(SPD)はソフトウェアセキュリティの維持に不可欠である。近年、多くの学習ベースのSPDアプローチがソースコードに有望な結果を示してきた。しかし、これらのアプローチは、現実世界のソフトウェアの大部分を構成するクローズドソースアプリケーションやプロプライエタリシステムには適用できない。
論文参考訳（メタデータ） (2025-09-07T13:31:43Z)
Evaluating Disassembly Errors With Only Binaries [8.416922409145759]
この作業は、バイナリのみを使用して分解エラーを評価する最初のものである。 TraceBinは、ターゲットバイナリのセキュリティタスクを自動で分解するユースケースをターゲットにしている。また、デアセンブラに依存する(クローズドソース)バイナリのセキュリティタスクの自動化にも役立ちます。
論文参考訳（メタデータ） (2025-06-25T03:46:19Z)
An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2025-04-30T17:02:06Z)
ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文参考訳（メタデータ） (2025-02-17T12:38:57Z)
Can Neural Decompilation Assist Vulnerability Prediction on Binary Code? [0.0]
本稿では、ソースコードやバイナリの複雑な表現なしでバイナリコードの脆弱性を予測する実験を行った。結果は、ニューラルネットワークの非コンパイルと脆弱性予測の両方において、最先端技術よりも優れています。
論文参考訳（メタデータ） (2024-12-10T14:17:14Z)
Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries [2.696054049278301]
新しくコンパイルされたバイナリコード脆弱性データセットであるDeBinVulを紹介します。 DeBinVulを使って最先端のLLMを微調整し、バイナリコード脆弱性の検出においてパフォーマンスが19%、24%、21%向上したことを報告します。
論文参考訳（メタデータ） (2024-11-07T18:54:31Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2024-04-15T14:44:08Z)
FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文参考訳（メタデータ） (2024-03-27T09:45:33Z)
CP-BCS: Binary Code Summarization Guided by Control Flow Graph and Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。 CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文参考訳（メタデータ） (2023-10-24T14:20:39Z)
Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。 Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文参考訳（メタデータ） (2023-09-25T15:42:18Z)
NeuDep: Neural Binary Memory Dependence Analysis [28.33030658966508]
本稿では,バイナリプログラムの実行方法に関する学習知識を活用して,メモリ依存を予測するための機械学習に基づく新しいアプローチを提案する。我々はNeuDepにアプローチを実装し、2つのコンパイラ、4つの最適化、4つの難読パスでコンパイルされた41の人気のあるソフトウェアプロジェクトで評価する。
論文参考訳（メタデータ） (2022-10-04T04:59:36Z)
SimCLF: A Simple Contrastive Learning Framework for Function-level Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。 SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文参考訳（メタデータ） (2022-09-06T12:09:45Z)
Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文参考訳（メタデータ） (2021-06-10T03:31:29Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)
Bin2vec: Learning Representations of Binary Executable Programs for Security Tasks [15.780176500971244]
我々は、計算プログラムグラフとともに、GCN(Graph Convolutional Networks)を活用する新しいアプローチであるBin2vecを紹介する。我々は,2つの意味的に異なるバイナリ解析タスクを解くために,我々の表現を用いることで,このアプローチの汎用性を実証する。我々は、ソースコードベースのinst2vecアプローチと比較して、分類誤差を40%削減して、新しい最先端結果を設定した。
論文参考訳（メタデータ） (2020-02-09T15:46:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。