論文の概要: CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity
Detection
- arxiv url: http://arxiv.org/abs/2402.18818v1
- Date: Thu, 29 Feb 2024 03:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:10:47.925965
- Title: CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity
Detection
- Title(参考訳): CEBin: 大規模バイナリコード類似性検出のためのコスト効果フレームワーク
- Authors: Hao Wang, Zeyu Gao, Chao Zhang, Mingyang Sun, Yuchen Zhou, Han Qiu, Xi
Xiao
- Abstract要約: バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。
本稿では,組込み型および比較型アプローチを融合した,費用対効果の高いBCSDフレームワークCEBinを提案する。
- 参考スコア(独自算出の注目度): 23.8834126695488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary code similarity detection (BCSD) is a fundamental technique for
various application. Many BCSD solutions have been proposed recently, which
mostly are embedding-based, but have shown limited accuracy and efficiency
especially when the volume of target binaries to search is large. To address
this issue, we propose a cost-effective BCSD framework, CEBin, which fuses
embedding-based and comparison-based approaches to significantly improve
accuracy while minimizing overheads. Specifically, CEBin utilizes a refined
embedding-based approach to extract features of target code, which efficiently
narrows down the scope of candidate similar code and boosts performance. Then,
it utilizes a comparison-based approach that performs a pairwise comparison on
the candidates to capture more nuanced and complex relationships, which greatly
improves the accuracy of similarity detection. By bridging the gap between
embedding-based and comparison-based approaches, CEBin is able to provide an
effective and efficient solution for detecting similar code (including
vulnerable ones) in large-scale software ecosystems. Experimental results on
three well-known datasets demonstrate the superiority of CEBin over existing
state-of-the-art (SOTA) baselines. To further evaluate the usefulness of BCSD
in real world, we construct a large-scale benchmark of vulnerability, offering
the first precise evaluation scheme to assess BCSD methods for the 1-day
vulnerability detection task. CEBin could identify the similar function from
millions of candidate functions in just a few seconds and achieves an
impressive recall rate of $85.46\%$ on this more practical but challenging
task, which are several order of magnitudes faster and $4.07\times$ better than
the best SOTA baseline. Our code is available at
https://github.com/Hustcw/CEBin.
- Abstract(参考訳): バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。
多くのBCSDソリューションが最近提案されているが、これは主に埋め込みベースであるが、特に探索対象バイナリの体積が大きい場合、精度と効率が制限されている。
この問題に対処するため,我々は,組込みベースおよび比較ベースアプローチを融合させ,オーバーヘッドを最小化しながら精度を大幅に向上させる,費用対効果の高いBCSDフレームワークであるCEBinを提案する。
具体的には、CEBinは洗練された埋め込みベースのアプローチを使用して、ターゲットコードの特徴を抽出し、候補となる類似コードの範囲を効率的に縮小し、パフォーマンスを向上する。
さらに, 類似度検出の精度を大幅に向上させるために, よりニュアンス的かつ複雑な関係を捉えるために, 候補を対的に比較する比較ベースアプローチを用いる。
埋め込みベースのアプローチと比較ベースのアプローチのギャップを埋めることで、CEBinは、大規模なソフトウェアエコシステムにおいて、類似のコード(脆弱性を含む)を検出するための効率的かつ効率的なソリューションを提供することができる。
3つのよく知られたデータセットの実験結果は、既存の最先端(SOTA)ベースラインよりもCEBinの方が優れていることを示している。
実世界におけるBCSDの有用性をさらに評価するために,大規模な脆弱性ベンチマークを構築し,BCSD法を1日間の脆弱性検出タスクで評価するための,最初の正確な評価手法を提供する。
CEBinは、数百万の候補関数からの類似した関数をわずか数秒で識別し、より実用的で困難なタスクに対して、85.46\%の印象的なリコール率を達成できる。
私たちのコードはhttps://github.com/hustcw/cebinで利用可能です。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis [6.093226756571566]
我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。
具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。
実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-14T05:13:48Z) - CARE: Confidence-rich Autonomous Robot Exploration using Bayesian Kernel
Inference and Optimization [12.32946442160165]
未知・複雑な環境における情報に基づく自律ロボット探査の効率化を検討する。
ベイジアンカーネル推論と最適化に基づく新しい軽量情報ゲイン推定法(BKIO)を提案する。
異なる非構造, 乱雑な環境下での探索性能を損なうことなく, 提案手法の所望の効率性を示す。
論文 参考訳(メタデータ) (2023-09-11T02:30:06Z) - Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone
Detection [0.0]
SSCDはBERTベースのクローン検出アプローチで、Type 3とType 4のクローンの大規模なリコールをターゲットとしている。
これは、各コードフラグメントへの代表埋め込みを計算し、近くの検索を使って類似のフラグメントを見つけることで実現している。
本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
論文 参考訳(メタデータ) (2023-09-05T12:38:55Z) - A Comprehensively Improved Hybrid Algorithm for Learning Bayesian
Networks: Multiple Compound Memory Erasing [0.0]
本稿では、新しいハイブリッドアルゴリズムMCME(multiple compound memory erasing)を提案する。
MCMEは、最初の2つの手法の利点を維持し、上記のCIテストの欠点を解消し、方向判別段階におけるスコアリング機能に革新をもたらす。
多くの実験により、MCMEは既存のアルゴリズムよりも優れた、あるいは類似した性能を示している。
論文 参考訳(メタデータ) (2022-12-05T12:52:07Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。