論文の概要: BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis
- arxiv url: http://arxiv.org/abs/2410.10163v1
- Date: Mon, 14 Oct 2024 05:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:06:10.734597
- Title: BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis
- Title(参考訳): BinSimDB: 微粒なバイナリコード類似性解析のためのベンチマークデータセットの構築
- Authors: Fei Zuo, Cody Tompkins, Qiang Zeng, Lannan Luo, Yung Ryn Choe, Junghwan Rhee,
- Abstract要約: 我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。
具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。
実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 6.093226756571566
- License:
- Abstract: Binary Code Similarity Analysis (BCSA) has a wide spectrum of applications, including plagiarism detection, vulnerability discovery, and malware analysis, thus drawing significant attention from the security community. However, conventional techniques often face challenges in balancing both accuracy and scalability simultaneously. To overcome these existing problems, a surge of deep learning-based work has been recently proposed. Unfortunately, many researchers still find it extremely difficult to conduct relevant studies or extend existing approaches. First, prior work typically relies on proprietary benchmark without making the entire dataset publicly accessible. Consequently, a large-scale, well-labeled dataset for binary code similarity analysis remains precious and scarce. Moreover, previous work has primarily focused on comparing at the function level, rather than exploring other finer granularities. Therefore, we argue that the lack of a fine-grained dataset for BCSA leaves a critical gap in current research. To address these challenges, we construct a benchmark dataset for fine-grained binary code similarity analysis called BinSimDB, which contains equivalent pairs of smaller binary code snippets, such as basic blocks. Specifically, we propose BMerge and BPair algorithms to bridge the discrepancies between two binary code snippets caused by different optimization levels or platforms. Furthermore, we empirically study the properties of our dataset and evaluate its effectiveness for the BCSA research. The experimental results demonstrate that BinSimDB significantly improves the performance of binary code similarity comparison.
- Abstract(参考訳): バイナリコード類似性分析(BCSA)は、盗作検出、脆弱性発見、マルウェア分析など幅広い応用があり、セキュリティコミュニティから大きな注目を集めている。
しかし,従来の手法では,精度とスケーラビリティの両立が難しい場合が多い。
これらの課題を克服するために、近年、ディープラーニングに基づく研究の急増が提案されている。
残念なことに、多くの研究者はいまだに、関連する研究や既存のアプローチの拡張が非常に難しいと考えている。
まず、以前の作業は通常、データセット全体を公開アクセスすることなく、プロプライエタリなベンチマークに依存します。
その結果、バイナリコード類似性分析のための大規模で十分にラベル付けされたデータセットは、依然として重要で不足している。
さらに、以前の研究は、他の細かい粒度を探索するよりも、関数レベルでの比較に重点を置いてきた。
したがって、BCSAの詳細なデータセットが欠如していることは、現在の研究において重大なギャップを残していると論じる。
これらの課題に対処するため,基本ブロックなどの小さなバイナリコードスニペットの等価ペアを含むBinSimDBと呼ばれる,粒度の細かいバイナリコード類似性解析のためのベンチマークデータセットを構築した。
具体的には,最適化レベルやプラットフォームによって引き起こされる2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。
さらに,このデータセットの特性を実証的に研究し,その有効性を評価する。
実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
関連論文リスト
- Unsupervised Binary Code Translation with Application to Code Similarity Detection and Vulnerability Discovery [2.022692275087205]
クロスアーキテクチャのバイナリコード解析が新たな問題となっている。
ディープラーニングベースのバイナリ分析は、有望な成功を収めている。
低リソースのISAでは、十分な量のデータを見つけることは困難である。
論文 参考訳(メタデータ) (2024-04-29T18:09:28Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
FoC-BinLLMは、ROUGE-LスコアでChatGPTを14.61%上回った。
FoC-Simは52%高いRecall@1で過去のベストメソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity
Detection [23.8834126695488]
バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。
本稿では,組込み型および比較型アプローチを融合した,費用対効果の高いBCSDフレームワークCEBinを提案する。
論文 参考訳(メタデータ) (2024-02-29T03:02:07Z) - Combating Bilateral Edge Noise for Robust Link Prediction [56.43882298843564]
本稿では,RGIB(Robust Graph Information Bottleneck)という情報理論の原則を提案し,信頼性の高い監視信号を抽出し,表現の崩壊を回避する。
RGIB-SSLとRGIB-REPの2つのインスタンス化は、異なる手法の利点を活用するために検討されている。
6つのデータセットと3つのGNNの様々なノイズシナリオによる実験は、我々のRGIBインスタンスの有効性を検証する。
論文 参考訳(メタデータ) (2023-11-02T12:47:49Z) - BiBench: Benchmarking and Analyzing Network Binarization [72.59760752906757]
ネットワークバイナライゼーションは、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つとして出現する。
精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。
ネットワークバイナライゼーションのための深度解析を用いた厳密に設計されたベンチマークであるBiBenchを提案する。
論文 参考訳(メタデータ) (2023-01-26T17:17:16Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - A Constraint-Based Algorithm for the Structural Learning of
Continuous-Time Bayesian Networks [70.88503833248159]
連続時間ベイズネットワークの構造を学習するための制約に基づく最初のアルゴリズムを提案する。
我々は,条件付き独立性を確立するために提案した,異なる統計的テストと基礎となる仮説について論じる。
論文 参考訳(メタデータ) (2020-07-07T07:34:09Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。