Fugu-MT 論文翻訳(概要): BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis

論文の概要: BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis

arxiv url: http://arxiv.org/abs/2410.10163v1
Date: Mon, 14 Oct 2024 05:13:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 02:44:27.890801
Title: BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis
Title（参考訳）: BinSimDB: 微粒なバイナリコード類似性解析のためのベンチマークデータセットの構築
Authors: Fei Zuo, Cody Tompkins, Qiang Zeng, Lannan Luo, Yung Ryn Choe, Junghwan Rhee,
Abstract要約: 我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
参考スコア（独自算出の注目度）: 6.093226756571566
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Binary Code Similarity Analysis (BCSA) has a wide spectrum of applications, including plagiarism detection, vulnerability discovery, and malware analysis, thus drawing significant attention from the security community. However, conventional techniques often face challenges in balancing both accuracy and scalability simultaneously. To overcome these existing problems, a surge of deep learning-based work has been recently proposed. Unfortunately, many researchers still find it extremely difficult to conduct relevant studies or extend existing approaches. First, prior work typically relies on proprietary benchmark without making the entire dataset publicly accessible. Consequently, a large-scale, well-labeled dataset for binary code similarity analysis remains precious and scarce. Moreover, previous work has primarily focused on comparing at the function level, rather than exploring other finer granularities. Therefore, we argue that the lack of a fine-grained dataset for BCSA leaves a critical gap in current research. To address these challenges, we construct a benchmark dataset for fine-grained binary code similarity analysis called BinSimDB, which contains equivalent pairs of smaller binary code snippets, such as basic blocks. Specifically, we propose BMerge and BPair algorithms to bridge the discrepancies between two binary code snippets caused by different optimization levels or platforms. Furthermore, we empirically study the properties of our dataset and evaluate its effectiveness for the BCSA research. The experimental results demonstrate that BinSimDB significantly improves the performance of binary code similarity comparison.
Abstract（参考訳）: バイナリコード類似性分析(BCSA)は、盗作検出、脆弱性発見、マルウェア分析など幅広い応用があり、セキュリティコミュニティから大きな注目を集めている。しかし,従来の手法では,精度とスケーラビリティの両立が難しい場合が多い。これらの課題を克服するために、近年、ディープラーニングに基づく研究の急増が提案されている。残念なことに、多くの研究者はいまだに、関連する研究や既存のアプローチの拡張が非常に難しいと考えている。まず、以前の作業は通常、データセット全体を公開アクセスすることなく、プロプライエタリなベンチマークに依存します。その結果、バイナリコード類似性分析のための大規模で十分にラベル付けされたデータセットは、依然として重要で不足している。さらに、以前の研究は、他の細かい粒度を探索するよりも、関数レベルでの比較に重点を置いてきた。したがって、BCSAの詳細なデータセットが欠如していることは、現在の研究において重大なギャップを残していると論じる。これらの課題に対処するため,基本ブロックなどの小さなバイナリコードスニペットの等価ペアを含むBinSimDBと呼ばれる,粒度の細かいバイナリコード類似性解析のためのベンチマークデータセットを構築した。具体的には,最適化レベルやプラットフォームによって引き起こされる2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。さらに,このデータセットの特性を実証的に研究し,その有効性を評価する。実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。

関連論文リスト

Cross-modal Retrieval Models for Stripped Binary Analysis [62.89251403093734]
BinSeekは、取り除かれたバイナリコード分析のための最初の2段階のクロスモーダル検索フレームワークである。 BinSeekEmbeddingは、バイナリコードのセマンティックな関連性を学ぶために、大規模なデータセットでトレーニングされている。 BinSeek-Rerankerは、コンテキスト拡張による記述に対する候補コードの関連性を慎重に判断することを学ぶ。
論文参考訳（メタデータ） (2025-12-11T07:58:10Z)
Obfuscation-Resilient Binary Code Similarity Analysis using Dominance Enhanced Semantic Graph [11.549110908614873]
ORCASは、支配強化セマンティックグラフ(DESG)に基づく難燃性BCSAモデルである我々は,支配強化セマンティックグラフ(DESG)に基づく難易度回復型BCSAモデルであるORCASを開発する。
論文参考訳（メタデータ） (2025-06-06T15:26:53Z)
Beyond the Edge of Function: Unraveling the Patterns of Type Recovery in Binary Code [55.493408628371235]
本稿では,バイナリコードの変数型を復元するフレームワークByteTRを提案する。 ByteTRは、関数間の変数伝搬の普遍性を考慮して、変数伝搬をトレースするためのプロシーダ間解析を行い、ゲートグラフニューラルネットワークを用いて、変数型回復のための長距離データフロー依存性をキャプチャする。
論文参考訳（メタデータ） (2025-03-10T12:27:05Z)
Is Function Similarity Over-Engineered? Building a Benchmark [37.33020176141435]
我々は、現実世界のユースケースをよりよく反映した高品質なデータセットとテストからなるバイナリ関数類似性検出のための新しいベンチマークを構築します。我々のベンチマークでは、関数の生のバイトだけを見て、分解やその他の前処理を必要としない新しい単純なベースラインが、複数の設定で最先端のパフォーマンスを達成できることが判明した。
論文参考訳（メタデータ） (2024-10-30T03:59:46Z)
Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。 IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-24T09:09:20Z)
Understanding the AI-powered Binary Code Similarity Detection [41.39226562321616]
AIによるバイナリコード類似度検出(BinSD)は、プログラム分析に広く応用されている。 BinSD問題がどの程度解決されたか、特に現実世界のアプリケーションで定量的に理解することは困難である。本稿では,最先端AIを用いたBinSD手法の体系的評価を行う。
論文参考訳（メタデータ） (2024-10-10T02:13:01Z)
FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文参考訳（メタデータ） (2024-03-27T09:45:33Z)
CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity Detection [23.8834126695488]
バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。本稿では,組込み型および比較型アプローチを融合した,費用対効果の高いBCSDフレームワークCEBinを提案する。
論文参考訳（メタデータ） (2024-02-29T03:02:07Z)
Combating Bilateral Edge Noise for Robust Link Prediction [56.43882298843564]
本稿では,RGIB(Robust Graph Information Bottleneck)という情報理論の原則を提案し,信頼性の高い監視信号を抽出し,表現の崩壊を回避する。 RGIB-SSLとRGIB-REPの2つのインスタンス化は、異なる手法の利点を活用するために検討されている。 6つのデータセットと3つのGNNの様々なノイズシナリオによる実験は、我々のRGIBインスタンスの有効性を検証する。
論文参考訳（メタデータ） (2023-11-02T12:47:49Z)
BiBench: Benchmarking and Analyzing Network Binarization [72.59760752906757]
ネットワークバイナライゼーションは、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つとして出現する。精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。ネットワークバイナライゼーションのための深度解析を用いた厳密に設計されたベンチマークであるBiBenchを提案する。
論文参考訳（メタデータ） (2023-01-26T17:17:16Z)
UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文参考訳（メタデータ） (2022-10-28T14:04:57Z)
Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文参考訳（メタデータ） (2021-06-10T03:31:29Z)
A Constraint-Based Algorithm for the Structural Learning of Continuous-Time Bayesian Networks [70.88503833248159]
連続時間ベイズネットワークの構造を学習するための制約に基づく最初のアルゴリズムを提案する。我々は,条件付き独立性を確立するために提案した,異なる統計的テストと基礎となる仮説について論じる。
論文参考訳（メタデータ） (2020-07-07T07:34:09Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。