論文の概要: Understanding the AI-powered Binary Code Similarity Detection
- arxiv url: http://arxiv.org/abs/2410.07537v1
- Date: Thu, 10 Oct 2024 02:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:26:23.077022
- Title: Understanding the AI-powered Binary Code Similarity Detection
- Title(参考訳): AIによるバイナリコード類似性検出の理解
- Authors: Lirong Fu, Peiyu Liu, Wenlong Meng, Kangjie Lu, Shize Zhou, Xuhong Zhang, Wenzhi Chen, Shouling Ji,
- Abstract要約: AIによるバイナリコード類似度検出(BinSD)は、プログラム分析に広く応用されている。
BinSD問題がどの程度解決されたか、特に現実世界のアプリケーションで定量的に理解することは困難である。
本稿では,最先端AIを用いたBinSD手法の体系的評価を行う。
- 参考スコア(独自算出の注目度): 41.39226562321616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-powered binary code similarity detection (BinSD), which transforms intricate binary code comparison to the distance measure of code embedding through neural networks, has been widely applied to program analysis. However, due to the diversity of the adopted embedding strategies, evaluation methodologies, running environments, and/or benchmarks, it is difficult to quantitatively understand to what extent the BinSD problem has been solved, especially in realworld applications. Moreover, the lack of an in-depth investigation of the increasingly complex embedding neural networks and various evaluation methodologies has become the key factor hindering the development of AI-powered BinSD. To fill these research gaps, in this paper, we present a systematic evaluation of state-of-the-art AI-powered BinSD approaches by conducting a comprehensive comparison of BinSD systems on similar function detection and two downstream applications, namely vulnerability search and license violation detection. Building upon this evaluation, we perform the first investigation of embedding neural networks and evaluation methodologies. The experimental results yield several findings, which provide valuable insights in the BinSD domain, including (1) despite the GNN-based BinSD systems currently achieving the best performance in similar function detection, there still exists considerable space for improvements;(2) the capability of AI-powered BinSD approaches exhibits significant variation when applied to different downstream applications;(3) existing evaluation methodologies still need substantial adjustments. For instance, the evaluation metrics (such as the widely adopted ROC and AUC) usually fall short of accurately representing the model performance of the practical use in realworld scenarios. Based on the extensive experiments and analysis, we further provide several promising future research directions.
- Abstract(参考訳): AIを利用したバイナリコード類似度検出(BinSD)は、ニューラルネットワークに埋め込まれたコードの距離測定と比較し、複雑なバイナリコードを変換し、プログラム分析に広く応用されている。
しかし, 組込み戦略, 評価手法, 実行環境, ベンチマークの多様性から, 特に実世界のアプリケーションにおいて, BinSD問題がどの程度解決されたのかを定量的に理解することは困難である。
さらに、ますます複雑な組み込みニューラルネットワークと様々な評価手法に関する詳細な調査が欠如していることが、AIによるBinSDの開発を妨げる重要な要因となっている。
このような研究ギャップを埋めるために,本稿では,BinSDシステムと2つの下流アプリケーション,すなわち脆弱性探索とライセンス違反検出を包括的に比較することにより,最先端のAIによるBinSDアプローチの体系的評価を行う。
この評価に基づいて,ニューラルネットワークの埋め込みと評価手法の最初の研究を行う。
実験結果から,(1)GNNベースのBinSDシステムは,現在同様の機能検出において最高の性能を達成しているが,まだ改善の余地が残っており,(2)AIによるBinSDアプローチの能力は,異なるダウンストリームアプリケーションに適用した場合に大きく変化する。
例えば、評価指標(例えば、広く採用されているROCやAUC)は、現実のシナリオにおける実用のモデル性能を正確に表現できない。
広範囲な実験と分析に基づいて、将来的な研究の方向性をさらに明らかにする。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis [6.093226756571566]
我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。
具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。
実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-14T05:13:48Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Quantifying uncertainty for deep learning based forecasting and
flow-reconstruction using neural architecture search ensembles [0.8258451067861933]
本稿では,ディープニューラルネットワーク(DNN)の自動検出手法を提案するとともに,アンサンブルに基づく不確実性定量化にも有効であることを示す。
提案手法は,タスクの高パフォーマンスニューラルネットワークアンサンブルを検出するだけでなく,不確実性をシームレスに定量化する。
本研究では, 歴史的データからの予測と, 海面温度のスパースセンサからのフロー再構成という2つの課題に対して, この枠組みの有効性を実証する。
論文 参考訳(メタデータ) (2023-02-20T03:57:06Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Benchmarking Deep Models for Salient Object Detection [67.07247772280212]
汎用SALOD(General SALient Object Detection)ベンチマークを構築し,複数のSOD手法の総合的な比較を行った。
以上の実験では、既存の損失関数は、通常いくつかの指標に特化しているが、他の指標には劣る結果が報告されている。
我々は,深層ネットワークに画素レベルと画像レベルの両方の監視信号を統合することにより,より識別的な特徴を学習するためのエッジ・アウェア・ロス(EA)を提案する。
論文 参考訳(メタデータ) (2022-02-07T03:43:16Z) - Learning a Domain-Agnostic Visual Representation for Autonomous Driving
via Contrastive Loss [25.798361683744684]
ドメイン認識コントラスト学習(Domain-Agnostic Contrastive Learning、DACL)は、2段階の非監視ドメイン適応フレームワークである。
提案手法は,従来の最新手法に比べ,単眼深度推定作業における性能向上を実現した。
論文 参考訳(メタデータ) (2021-03-10T07:06:03Z) - Heterogeneous Network Representation Learning: A Unified Framework with
Survey and Benchmark [57.10850350508929]
我々は、異種ネットワーク埋め込み(HNE)に関する既存の研究を要約し、評価するための統一的なフレームワークを提供することを目指している。
最初のコントリビューションとして、既存のHNEアルゴリズムのメリットを体系的に分類し分析するための一般的なパラダイムを提供する。
第2のコントリビューションとして、さまざまなソースから、スケール、構造、属性/ラベルの可用性などに関するさまざまな特性を備えた4つのベンチマークデータセットを作成します。
第3のコントリビューションとして、13の人気のあるHNEアルゴリズムに対するフレンドリなインターフェースを作成し、複数のタスクと実験的な設定に対して、それらの全周比較を提供する。
論文 参考訳(メタデータ) (2020-04-01T03:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。