Fugu-MT 論文翻訳(概要): CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity Detection

論文の概要: CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity Detection

arxiv url: http://arxiv.org/abs/2402.18818v1
Date: Thu, 29 Feb 2024 03:02:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 16:10:47.925965
Title: CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity Detection
Title（参考訳）: CEBin: 大規模バイナリコード類似性検出のためのコスト効果フレームワーク
Authors: Hao Wang, Zeyu Gao, Chao Zhang, Mingyang Sun, Yuchen Zhou, Han Qiu, Xi Xiao
Abstract要約: バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。本稿では,組込み型および比較型アプローチを融合した,費用対効果の高いBCSDフレームワークCEBinを提案する。
参考スコア（独自算出の注目度）: 23.8834126695488
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Binary code similarity detection (BCSD) is a fundamental technique for various application. Many BCSD solutions have been proposed recently, which mostly are embedding-based, but have shown limited accuracy and efficiency especially when the volume of target binaries to search is large. To address this issue, we propose a cost-effective BCSD framework, CEBin, which fuses embedding-based and comparison-based approaches to significantly improve accuracy while minimizing overheads. Specifically, CEBin utilizes a refined embedding-based approach to extract features of target code, which efficiently narrows down the scope of candidate similar code and boosts performance. Then, it utilizes a comparison-based approach that performs a pairwise comparison on the candidates to capture more nuanced and complex relationships, which greatly improves the accuracy of similarity detection. By bridging the gap between embedding-based and comparison-based approaches, CEBin is able to provide an effective and efficient solution for detecting similar code (including vulnerable ones) in large-scale software ecosystems. Experimental results on three well-known datasets demonstrate the superiority of CEBin over existing state-of-the-art (SOTA) baselines. To further evaluate the usefulness of BCSD in real world, we construct a large-scale benchmark of vulnerability, offering the first precise evaluation scheme to assess BCSD methods for the 1-day vulnerability detection task. CEBin could identify the similar function from millions of candidate functions in just a few seconds and achieves an impressive recall rate of $85.46\%$ on this more practical but challenging task, which are several order of magnitudes faster and $4.07\times$ better than the best SOTA baseline. Our code is available at https://github.com/Hustcw/CEBin.
Abstract（参考訳）: バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。多くのBCSDソリューションが最近提案されているが、これは主に埋め込みベースであるが、特に探索対象バイナリの体積が大きい場合、精度と効率が制限されている。この問題に対処するため,我々は,組込みベースおよび比較ベースアプローチを融合させ,オーバーヘッドを最小化しながら精度を大幅に向上させる,費用対効果の高いBCSDフレームワークであるCEBinを提案する。具体的には、CEBinは洗練された埋め込みベースのアプローチを使用して、ターゲットコードの特徴を抽出し、候補となる類似コードの範囲を効率的に縮小し、パフォーマンスを向上する。さらに, 類似度検出の精度を大幅に向上させるために, よりニュアンス的かつ複雑な関係を捉えるために, 候補を対的に比較する比較ベースアプローチを用いる。埋め込みベースのアプローチと比較ベースのアプローチのギャップを埋めることで、CEBinは、大規模なソフトウェアエコシステムにおいて、類似のコード(脆弱性を含む)を検出するための効率的かつ効率的なソリューションを提供することができる。 3つのよく知られたデータセットの実験結果は、既存の最先端(SOTA)ベースラインよりもCEBinの方が優れていることを示している。実世界におけるBCSDの有用性をさらに評価するために,大規模な脆弱性ベンチマークを構築し,BCSD法を1日間の脆弱性検出タスクで評価するための,最初の正確な評価手法を提供する。 CEBinは、数百万の候補関数からの類似した関数をわずか数秒で識別し、より実用的で困難なタスクに対して、85.46\%の印象的なリコール率を達成できる。私たちのコードはhttps://github.com/hustcw/cebinで利用可能です。

関連論文リスト

Refining Decision Boundaries In Anomaly Detection Using Similarity Search Within the Feature Space [3.3202103799131795]
SDA2E(Sparse Dual Adversarial Attention-based AutoEncoder)を導入する。本稿では,意思決定境界を効率的に洗練するための3つの新しい戦略を統合した類似性誘導型アクティブラーニングフレームワークを提案する。 SDA2Eは、複数のDARPAトランスペアレントコンピューティングシナリオを含む52の不均衡データセットにわたって広範囲に評価し、15の最先端の異常検出手法と比較した。
論文参考訳（メタデータ） (2026-02-02T23:55:08Z)
Esim: EVM Bytecode Similarity Detection Based on Stable-Semantic Graph [18.420449483065997]
一般的なコードの再利用と、限られたオープンソースコントリビューションは、ブロックチェーンエコシステムに重大な課題をもたらしています。従来のバイナリ類似性検出方法は典型的には命令ストリームや制御フローグラフに基づいている。安定意味グラフ(SSG)と呼ばれる新しいEVMバイトコード表現を提案する。異種グラフニューラルネットワークを用いた類似性検出のために,SSGを行列に埋め込んだプロトタイプEsimを実装した。
論文参考訳（メタデータ） (2025-11-17T04:48:52Z)
Anytime Cooperative Implicit Hitting Set Solving [46.010796136659536]
Implicit Hitting Set (HS)アプローチは、MaxSAT、Pseudo-boolean最適化、その他のフレームワークに非常に効果的であることが示されている。いずれのコンポーネントによって発見されたコアが利用できるマルチスレッドアーキテクチャにおいて、どのように簡単に組み合わせられるかを示す。その結果,HS-lub は HS-lb と HS-ub のどちらよりも独立に優れていることがわかった。
論文参考訳（メタデータ） (2025-01-14T07:23:52Z)
Efficient Approximate Degenerate Ordered Statistics Decoding for Quantum Codes via Reliable Subset Reduction [5.625796693054094]
我々は、近似縮退復号法の概念を導入し、順序付き統計復号法(OSD)と統合する。コードキャパシティノイズモデルにおけるOSD効率を大幅に向上するADOSDアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-30T17:45:08Z)
Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。 IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-24T09:09:20Z)
BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis [6.093226756571566]
我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-10-14T05:13:48Z)
Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文参考訳（メタデータ） (2024-04-28T08:44:28Z)
CARE: Confidence-rich Autonomous Robot Exploration using Bayesian Kernel Inference and Optimization [12.32946442160165]
未知・複雑な環境における情報に基づく自律ロボット探査の効率化を検討する。ベイジアンカーネル推論と最適化に基づく新しい軽量情報ゲイン推定法(BKIO)を提案する。異なる非構造, 乱雑な環境下での探索性能を損なうことなく, 提案手法の所望の効率性を示す。
論文参考訳（メタデータ） (2023-09-11T02:30:06Z)
Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone Detection [0.0]
SSCDはBERTベースのクローン検出アプローチで、Type 3とType 4のクローンの大規模なリコールをターゲットとしている。これは、各コードフラグメントへの代表埋め込みを計算し、近くの検索を使って類似のフラグメントを見つけることで実現している。本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
論文参考訳（メタデータ） (2023-09-05T12:38:55Z)
A Comprehensively Improved Hybrid Algorithm for Learning Bayesian Networks: Multiple Compound Memory Erasing [0.0]
本稿では、新しいハイブリッドアルゴリズムMCME(multiple compound memory erasing)を提案する。 MCMEは、最初の2つの手法の利点を維持し、上記のCIテストの欠点を解消し、方向判別段階におけるスコアリング機能に革新をもたらす。多くの実験により、MCMEは既存のアルゴリズムよりも優れた、あるいは類似した性能を示している。
論文参考訳（メタデータ） (2022-12-05T12:52:07Z)
UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文参考訳（メタデータ） (2022-10-28T14:04:57Z)
Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文参考訳（メタデータ） (2022-10-23T00:32:04Z)
Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文参考訳（メタデータ） (2022-07-26T04:38:47Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Beta-CROWN: Efficient Bound Propagation with Per-neuron Split Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。 Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。 BaBを早期に終了することにより、不完全な検証にも使用できます。
論文参考訳（メタデータ） (2021-03-11T11:56:54Z)
Bayesian Optimization with Machine Learning Algorithms Towards Anomaly Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。 ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-08-05T19:29:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。