Fugu-MT 論文翻訳(概要): BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching

論文の概要: BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching

arxiv url: http://arxiv.org/abs/2401.11161v2
Date: Tue, 23 Jan 2024 05:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 12:39:30.417048
Title: BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching
Title（参考訳）: binaryai:intelligent binary source code matchingによるバイナリソフトウェア構成分析
Authors: Ling Jiang, Junwen An, Huihui Huang, Qiyi Tang, Sen Nie, Shi Wu, Yuqun Zhang
Abstract要約: BinaryAIは2フェーズのバイナリソースコードマッチングを備えた新しいバイナリ・ソースSCA技術で、構文的および意味的両方のコード特徴をキャプチャする。実験の結果、バイナリソースコードマッチングと下流SCAタスクにおいて、BinaryAIの優れた性能を示しました。
参考スコア（独自算出の注目度）: 9.089636473792169
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While third-party libraries are extensively reused to enhance productivity during software development, they can also introduce potential security risks such as vulnerability propagation. Software composition analysis, proposed to identify reused TPLs for reducing such risks, has become an essential procedure within modern DevSecOps. As one of the mainstream SCA techniques, binary-to-source SCA identifies the third-party source projects contained in binary files via binary source code matching, which is a major challenge in reverse engineering since binary and source code exhibit substantial disparities after compilation. The existing binary-to-source SCA techniques leverage basic syntactic features that suffer from redundancy and lack robustness in the large-scale TPL dataset, leading to inevitable false positives and compromised recall. To mitigate these limitations, we introduce BinaryAI, a novel binary-to-source SCA technique with two-phase binary source code matching to capture both syntactic and semantic code features. First, BinaryAI trains a transformer-based model to produce function-level embeddings and obtain similar source functions for each binary function accordingly. Then by applying the link-time locality to facilitate function matching, BinaryAI detects the reused TPLs based on the ratio of matched source functions. Our experimental results demonstrate the superior performance of BinaryAI in terms of binary source code matching and the downstream SCA task. Specifically, our embedding model outperforms the state-of-the-art model CodeCMR, i.e., achieving 22.54% recall@1 and 0.34 MRR compared with 10.75% and 0.17 respectively. Additionally, BinaryAI outperforms all existing binary-to-source SCA tools in TPL detection, increasing the precision from 73.36% to 85.84% and recall from 59.81% to 64.98% compared with the well-recognized commercial SCA product Black Duck.
Abstract（参考訳）: サードパーティのライブラリは、ソフトウェア開発中に生産性を高めるために広範囲に再利用されるが、脆弱性伝播のような潜在的なセキュリティリスクも引き起こすことができる。このようなリスクを軽減するために再利用可能なTPLを同定するソフトウェア構成分析は、DevSecOpsにおいて必須の手順となっている。主要なSCA技術の一つとして、バイナリからソースまでのSCAはバイナリソースコードマッチングを通じてバイナリファイルに含まれるサードパーティのオープンソースプロジェクトを特定します。既存のバイナリ・トゥ・ソースのSCA技術は、冗長性と大規模TPLデータセットの堅牢性に欠ける基本的な構文的特徴を利用しており、必然的な偽陽性と難解なリコールにつながっている。これらの制限を緩和するため、BinaryAIという2段階のバイナリソースコードマッチングを備えた、新しいバイナリからソースまでのSCA技術を導入し、構文的およびセマンティックなコードの特徴を捉える。まず、BinaryAIはトランスフォーマーモデルを使用して関数レベルの埋め込みを生成し、それに応じて各バイナリ関数に対して同様のソース関数を取得する。次に、関数マッチングを容易にするためにリンク時間局所性を適用することにより、BinaryAIは一致したソース関数の比率に基づいて再利用されたTPLを検出する。実験結果は,バイナリソースコードマッチングとダウンストリームscaタスクの観点から,binaryaiの優れた性能を示す。具体的には、埋め込みモデルは最先端のcodecmr、すなわち22.54%のre recall@1 と 0.34 mrr をそれぞれ10.75% と 0.17 に上回っている。さらに、BinaryAIは既存のバイナリからソースまでのSCAツールをTPL検出で上回り、精度は73.36%から85.84%に、リコールは59.81%から64.98%に向上した。

関連論文リスト

Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
Obfuscation-Resilient Binary Code Similarity Analysis using Dominance Enhanced Semantic Graph [11.549110908614873]
ORCASは、支配強化セマンティックグラフ(DESG)に基づく難燃性BCSAモデルである我々は,支配強化セマンティックグラフ(DESG)に基づく難易度回復型BCSAモデルであるORCASを開発する。
論文参考訳（メタデータ） (2025-06-06T15:26:53Z)
An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2025-04-30T17:02:06Z)
BinCoFer: Three-Stage Purification for Effective C/C++ Binary Third-Party Library Detection [3.406168883492101]
サードパーティ製ライブラリ(TPL)は、効率的かつ簡潔なソフトウェア開発を実現するために人気が高まっている。規制されていないTPLの使用は、ソフトウェア開発に法的およびセキュリティ上の問題をもたらす。 BinCoFerはバイナリプログラムで再利用されたTPLを検出するために設計されたツールである。
論文参考訳（メタデータ） (2025-04-28T07:57:42Z)
Beyond the Edge of Function: Unraveling the Patterns of Type Recovery in Binary Code [55.493408628371235]
本稿では,バイナリコードの変数型を復元するフレームワークByteTRを提案する。 ByteTRは、関数間の変数伝搬の普遍性を考慮して、変数伝搬をトレースするためのプロシーダ間解析を行い、ゲートグラフニューラルネットワークを用いて、変数型回復のための長距離データフロー依存性をキャプチャする。
論文参考訳（メタデータ） (2025-03-10T12:27:05Z)
Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries [2.696054049278301]
新しくコンパイルされたバイナリコード脆弱性データセットであるDeBinVulを紹介します。 DeBinVulを使って最先端のLLMを微調整し、バイナリコード脆弱性の検出においてパフォーマンスが19%、24%、21%向上したことを報告します。
論文参考訳（メタデータ） (2024-11-07T18:54:31Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code [4.956066467858057]
本研究では,Word2vec,BERT,RoBERTaを用いた自然言語処理(NLP)埋め込み技術を用いた脆弱性検出について検討する。長い短期記憶(LSTM)ニューラルネットワークは、Julietデータセットから約48kのLLVM関数を使用して生成されたエンコーダからの埋め込みをトレーニングした。
論文参考訳（メタデータ） (2024-05-31T03:57:19Z)
Source Code Foundation Models are Transferable Binary Analysis Knowledge Bases [9.422025563792818]
人間指向バイナリリバースエンジニアリング(Human-Oriented Binary Reverse Engineering)は、ソースコードに関連する可読性のあるコンテンツにバイナリコードを持ち上げることを目的としている。本稿では,バイナリソースエンコーダデコーダモデルと,バイナリ解析のためのブラックボックスLCMを組み込んだ新しいプローブ・アンド・リカバリフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-30T00:17:44Z)
How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2024-04-15T14:44:08Z)
FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文参考訳（メタデータ） (2024-03-27T09:45:33Z)
Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。 BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文参考訳（メタデータ） (2023-05-17T15:36:08Z)
UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文参考訳（メタデータ） (2022-10-28T14:04:57Z)
Towards Accurate Binary Neural Networks via Modeling Contextual Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文参考訳（メタデータ） (2022-09-03T11:51:04Z)
Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文参考訳（メタデータ） (2021-06-10T03:31:29Z)
High-Capacity Expert Binary Networks [56.87581500474093]
ネットワークバイナライゼーションは、効率的なディープモデルを作成するための、ハードウェア対応の有望な方向性である。メモリと計算上の優位性にもかかわらず、バイナリモデルとその実数値モデルの間の精度のギャップを縮めることは、未解決の課題である。本稿では,入力特徴に基づく時間に1つのデータ固有のエキスパートバイナリフィルタを選択することを学習することで,初めてバイナリネットワークに条件付きコンピューティングを適合させる専門家バイナリ畳み込みを提案する。
論文参考訳（メタデータ） (2020-10-07T17:58:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。