論文の概要: Obfuscation-Resilient Binary Code Similarity Analysis using Dominance Enhanced Semantic Graph
- arxiv url: http://arxiv.org/abs/2506.06161v1
- Date: Fri, 06 Jun 2025 15:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.531647
- Title: Obfuscation-Resilient Binary Code Similarity Analysis using Dominance Enhanced Semantic Graph
- Title(参考訳): Dominance Enhanced Semantic Graph を用いた難読化-レジリエントバイナリコード類似性解析
- Authors: Yufeng Wang, Yuhong Feng, Yixuan Cao, Haoran Li, Haiyue Feng, Yifeng Wang,
- Abstract要約: ORCASは、支配強化セマンティックグラフ(DESG)に基づく難燃性BCSAモデルである
我々は,支配強化セマンティックグラフ(DESG)に基づく難易度回復型BCSAモデルであるORCASを開発する。
- 参考スコア(独自算出の注目度): 11.549110908614873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary code similarity analysis (BCSA) serves as a core technique for binary analysis tasks such as vulnerability detection. While current graph-based BCSA approaches capture substantial semantics and show strong performance, their performance suffers under code obfuscation due to the unstable control flow. To address this issue, we develop ORCAS, an Obfuscation-Resilient BCSA model based on Dominance Enhanced Semantic Graph (DESG). The DESG is an original binary code representation, capturing more binaries' implicit semantics without control flow structure, including inter-instruction relations, inter-basic block relations, and instruction-basic block relations. ORCAS robustly scores semantic similarity across binary functions from different obfuscation options, optimization levels, and instruction set architectures. Extensive evaluation on the BinKit dataset shows ORCAS significantly outperforms eight baselines, achieving an average 12.1% PR-AUC gain when using combined three obfuscation options compared to the state-of-the-art approaches. Furthermore, ORCAS improves recall by up to 43% on an original obfuscated real-world vulnerability dataset, which we released to facilitate future research.
- Abstract(参考訳): バイナリコード類似性分析(BCSA)は、脆弱性検出などのバイナリ解析タスクのコア技術として機能する。
現在のグラフベースのBCSAアプローチは、実質的なセマンティクスをキャプチャし、強力なパフォーマンスを示すが、不安定な制御フローのために、そのパフォーマンスはコードの難読化に苦しむ。
この問題に対処するため,ドミナンス強化セマンティックグラフ(DESG)に基づく難燃性BCSAモデルであるORCASを開発した。
DESGはオリジナルのバイナリコード表現であり、命令間ブロック関係、基本ブロック関係、命令-基本ブロック関係を含む制御フロー構造なしで多くのバイナリの暗黙的なセマンティクスをキャプチャする。
ORCASは、異なる難読化オプション、最適化レベル、命令セットアーキテクチャからバイナリ関数間のセマンティックな類似性をしっかりとスコア付けする。
BinKitデータセットの大規模な評価では、ORCASは8つのベースラインを大きく上回り、最先端のアプローチと比較して3つの難読化オプションの組み合わせを使用する場合、平均12.1%のPR-AUCゲインを達成した。
さらに、ORCASは、将来の研究を促進するためにリリースした、元の難読化現実の脆弱性データセットのリコールを最大43%改善します。
関連論文リスト
- Beyond the Edge of Function: Unraveling the Patterns of Type Recovery in Binary Code [55.493408628371235]
本稿では,バイナリコードの変数型を復元するフレームワークByteTRを提案する。
ByteTRは、関数間の変数伝搬の普遍性を考慮して、変数伝搬をトレースするためのプロシーダ間解析を行い、ゲートグラフニューラルネットワークを用いて、変数型回復のための長距離データフロー依存性をキャプチャする。
論文 参考訳(メタデータ) (2025-03-10T12:27:05Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis [6.093226756571566]
我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。
具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。
実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-14T05:13:48Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching [8.655595404611821]
BinaryAIは2フェーズのバイナリソースコードマッチングを備えた新しいバイナリ・ソースSCA技術で、構文的および意味的両方のコード特徴をキャプチャする。
実験の結果、バイナリソースコードマッチングと下流SCAタスクにおいて、BinaryAIの優れた性能を示しました。
論文 参考訳(メタデータ) (2024-01-20T07:57:57Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [2.2329530239800035]
モデルがバイナリコードの複雑なニュアンスをキャプチャすることを保証するために,新しいリッチ・セマンティック関数表現手法を提案する。
新たに設計された2つのトレーニングタスクを含むUniASMという,UniLMベースのバイナリコード埋め込みモデルを紹介した。
実験の結果,UniASMは評価データセットに対する最先端(SOTA)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。