論文の概要: BinaryAI: Binary Software Composition Analysis via Intelligent Binary
Source Code Matching
- arxiv url: http://arxiv.org/abs/2401.11161v2
- Date: Tue, 23 Jan 2024 05:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 12:39:30.417048
- Title: BinaryAI: Binary Software Composition Analysis via Intelligent Binary
Source Code Matching
- Title(参考訳): binaryai:intelligent binary source code matchingによるバイナリソフトウェア構成分析
- Authors: Ling Jiang, Junwen An, Huihui Huang, Qiyi Tang, Sen Nie, Shi Wu, Yuqun
Zhang
- Abstract要約: BinaryAIは2フェーズのバイナリソースコードマッチングを備えた新しいバイナリ・ソースSCA技術で、構文的および意味的両方のコード特徴をキャプチャする。
実験の結果、バイナリソースコードマッチングと下流SCAタスクにおいて、BinaryAIの優れた性能を示しました。
- 参考スコア(独自算出の注目度): 9.089636473792169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While third-party libraries are extensively reused to enhance productivity
during software development, they can also introduce potential security risks
such as vulnerability propagation. Software composition analysis, proposed to
identify reused TPLs for reducing such risks, has become an essential procedure
within modern DevSecOps. As one of the mainstream SCA techniques,
binary-to-source SCA identifies the third-party source projects contained in
binary files via binary source code matching, which is a major challenge in
reverse engineering since binary and source code exhibit substantial
disparities after compilation. The existing binary-to-source SCA techniques
leverage basic syntactic features that suffer from redundancy and lack
robustness in the large-scale TPL dataset, leading to inevitable false
positives and compromised recall. To mitigate these limitations, we introduce
BinaryAI, a novel binary-to-source SCA technique with two-phase binary source
code matching to capture both syntactic and semantic code features. First,
BinaryAI trains a transformer-based model to produce function-level embeddings
and obtain similar source functions for each binary function accordingly. Then
by applying the link-time locality to facilitate function matching, BinaryAI
detects the reused TPLs based on the ratio of matched source functions. Our
experimental results demonstrate the superior performance of BinaryAI in terms
of binary source code matching and the downstream SCA task. Specifically, our
embedding model outperforms the state-of-the-art model CodeCMR, i.e., achieving
22.54% recall@1 and 0.34 MRR compared with 10.75% and 0.17 respectively.
Additionally, BinaryAI outperforms all existing binary-to-source SCA tools in
TPL detection, increasing the precision from 73.36% to 85.84% and recall from
59.81% to 64.98% compared with the well-recognized commercial SCA product Black
Duck.
- Abstract(参考訳): サードパーティのライブラリは、ソフトウェア開発中に生産性を高めるために広範囲に再利用されるが、脆弱性伝播のような潜在的なセキュリティリスクも引き起こすことができる。
このようなリスクを軽減するために再利用可能なTPLを同定するソフトウェア構成分析は、DevSecOpsにおいて必須の手順となっている。
主要なSCA技術の一つとして、バイナリからソースまでのSCAはバイナリソースコードマッチングを通じてバイナリファイルに含まれるサードパーティのオープンソースプロジェクトを特定します。
既存のバイナリ・トゥ・ソースのSCA技術は、冗長性と大規模TPLデータセットの堅牢性に欠ける基本的な構文的特徴を利用しており、必然的な偽陽性と難解なリコールにつながっている。
これらの制限を緩和するため、BinaryAIという2段階のバイナリソースコードマッチングを備えた、新しいバイナリからソースまでのSCA技術を導入し、構文的およびセマンティックなコードの特徴を捉える。
まず、BinaryAIはトランスフォーマーモデルを使用して関数レベルの埋め込みを生成し、それに応じて各バイナリ関数に対して同様のソース関数を取得する。
次に、関数マッチングを容易にするためにリンク時間局所性を適用することにより、BinaryAIは一致したソース関数の比率に基づいて再利用されたTPLを検出する。
実験結果は,バイナリソースコードマッチングとダウンストリームscaタスクの観点から,binaryaiの優れた性能を示す。
具体的には、埋め込みモデルは最先端のcodecmr、すなわち22.54%のre recall@1 と 0.34 mrr をそれぞれ10.75% と 0.17 に上回っている。
さらに、BinaryAIは既存のバイナリからソースまでのSCAツールをTPL検出で上回り、精度は73.36%から85.84%に、リコールは59.81%から64.98%に向上した。
関連論文リスト
- CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - Feature Engineering-Based Detection of Buffer Overflow Vulnerability in
Source Code Using Neural Networks [2.9266864570485827]
ソースコードから抽出された特徴を学習するニューラルネットワークモデルに基づく脆弱性検出方法。
我々は,GloVeやfastTextといったアートワード埋め込みアルゴリズムの状態を用いて,セマンティックおよび構文情報を維持する。
従来のニューラルネットワークに関わる問題を克服できるニューラルネットワークモデルを提案してきた。
論文 参考訳(メタデータ) (2023-06-01T01:44:49Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z) - Automatically Mitigating Vulnerabilities in Binary Programs via
Partially Recompilable Decompilation [8.31538179550799]
部分再コンパイル可能デコンパイル(PRD)を提案する。
PRDは疑わしいバイナリ関数をソースに持ち上げ、分析、リビジョン、レビューに使用でき、パッチされたバイナリを生成する。
我々は、ソースレベルの自動プログラム修復(APR)手法を組み込んだ完全自動化プロセスと、人為的に編集されたソースレベルの修復という2つの文脈でPRDを評価した。
論文 参考訳(メタデータ) (2022-02-24T19:48:45Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - High-Capacity Expert Binary Networks [56.87581500474093]
ネットワークバイナライゼーションは、効率的なディープモデルを作成するための、ハードウェア対応の有望な方向性である。
メモリと計算上の優位性にもかかわらず、バイナリモデルとその実数値モデルの間の精度のギャップを縮めることは、未解決の課題である。
本稿では,入力特徴に基づく時間に1つのデータ固有のエキスパートバイナリフィルタを選択することを学習することで,初めてバイナリネットワークに条件付きコンピューティングを適合させる専門家バイナリ畳み込みを提案する。
論文 参考訳(メタデータ) (2020-10-07T17:58:10Z) - Training Binary Neural Networks with Real-to-Binary Convolutions [52.91164959767517]
完全精度のネットワークのうち、数パーセント以内にバイナリネットワークをトレーニングする方法を示します。
我々は、最先端の精度をすでに達成している強力なベースラインを構築する方法を示す。
すべての改善をまとめると、提案したモデルは、ImageNet上で5%以上のトップ1精度で、現在の最先端の技術を上回ります。
論文 参考訳(メタデータ) (2020-03-25T17:54:38Z) - Bin2vec: Learning Representations of Binary Executable Programs for
Security Tasks [15.780176500971244]
我々は、計算プログラムグラフとともに、GCN(Graph Convolutional Networks)を活用する新しいアプローチであるBin2vecを紹介する。
我々は,2つの意味的に異なるバイナリ解析タスクを解くために,我々の表現を用いることで,このアプローチの汎用性を実証する。
我々は、ソースコードベースのinst2vecアプローチと比較して、分類誤差を40%削減して、新しい最先端結果を設定した。
論文 参考訳(メタデータ) (2020-02-09T15:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。