論文の概要: ORCAS: Obfuscation-Resilient Binary Code Similarity Analysis using Dominance Enhanced Semantic Graph
- arxiv url: http://arxiv.org/abs/2506.06161v2
- Date: Sat, 30 Aug 2025 13:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.425674
- Title: ORCAS: Obfuscation-Resilient Binary Code Similarity Analysis using Dominance Enhanced Semantic Graph
- Title(参考訳): ORCAS: Dominance Enhanced Semantic Graph を用いた難読化耐性バイナリコード類似性解析
- Authors: Yufeng Wang, Yuhong Feng, Yixuan Cao, Haoran Li, Haiyue Feng, Yifeng Wang,
- Abstract要約: 我々は,支配強化セマンティックグラフ(DESG)に基づく難易度回復型BCSAモデルであるORCASを開発する。
DESGは元のバイナリコード表現であり、制御フロー構造なしで多くのバイナリの暗黙的なセマンティクスをキャプチャする。
ORCASは、この新しくリリースされた現実世界の脆弱性データセットに対する最先端のアプローチを最大43%のリコール改善で上回っている。
- 参考スコア(独自算出の注目度): 11.990392428275179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary code similarity analysis (BCSA) serves as a foundational technique for binary analysis tasks such as vulnerability detection and malware identification. Existing graph based BCSA approaches capture more binary code semantics and demonstrate remarkable performance. However, when code obfuscation is applied, the unstable control flow structure degrades their performance. To address this issue, we develop ORCAS, an Obfuscation-Resilient BCSA model based on Dominance Enhanced Semantic Graph (DESG). The DESG is an original binary code representation, capturing more binaries' implicit semantics without control flow structure, including inter-instruction relations (e.g., def-use), inter-basic block relations (i.e., dominance and post-dominance), and instruction-basic block relations. ORCAS takes binary functions from different obfuscation options, optimization levels, and instruction set architectures as input and scores their semantic similarity more robustly. Extensive experiments have been conducted on ORCAS against eight baseline approaches over the BinKit dataset. For example, ORCAS achieves an average 12.1% PR-AUC improvement when using combined three obfuscation options compared to the state-of-the-art approaches. In addition, an original obfuscated real-world vulnerability dataset has been constructed and released to facilitate a more comprehensive research on obfuscated binary code analysis. ORCAS outperforms the state-of-the-art approaches over this newly released real-world vulnerability dataset by up to a recall improvement of 43%.
- Abstract(参考訳): バイナリコード類似性分析(BCSA)は、脆弱性検出やマルウェアの識別といったバイナリ解析タスクの基礎となる技術である。
既存のグラフベースのBCSAアプローチは、より多くのバイナリコードセマンティクスをキャプチャし、素晴らしいパフォーマンスを示す。
しかし、コードの難読化が適用されると、不安定な制御フロー構造が性能を低下させる。
この問題に対処するため,ドミナンス強化セマンティックグラフ(DESG)に基づく難燃性BCSAモデルであるORCASを開発した。
DESGは元々のバイナリコード表現であり、命令間関係(例:def-use)、基本間ブロック関係(例:支配と支配後)、命令-基本ブロック関係など、制御フロー構造なしで多くのバイナリの暗黙的セマンティクスをキャプチャする。
ORCASは、異なる難読化オプション、最適化レベル、命令セットアーキテクチャからバイナリ関数を入力として取り、セマンティックな類似性をより堅牢にスコアする。
ORCASでは、BinKitデータセット上の8つのベースラインアプローチに対して大規模な実験が行われた。
例えば、ORCASは、最先端のアプローチと比較して、3つの難読化オプションの組み合わせを使用する場合、平均12.1%のPR-AUC改善を実現している。
さらに、難読化バイナリコード分析に関するより包括的な研究を促進するために、元の難読化現実の脆弱性データセットが構築され、リリースされている。
ORCASは、この新しくリリースされた現実世界の脆弱性データセットに対する最先端のアプローチを最大43%のリコール改善で上回っている。
関連論文リスト
- Breaking Obfuscation: Cluster-Aware Graph with LLM-Aided Recovery for Malicious JavaScript Detection [9.83040332336481]
悪意あるJavaScriptコードは、ユーザのプライバシ、システム整合性、エンタープライズセキュリティに重大な脅威をもたらす。
大規模言語モデル(LLM)に基づく難読化とコードグラフ学習を組み合わせたハイブリッドディフェンスフレームワークであるDeCodaを提案する。
論文 参考訳(メタデータ) (2025-07-30T07:46:49Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Identifying Obfuscated Code through Graph-Based Semantic Analysis of Binary Code [5.181058136007981]
本稿では,グラフを用いた機能レベルの難読化検出の問題について検討する。
様々な難読化型と難読化剤を考慮し、2つの複雑なデータセットを生成する。
提案手法は,特に難易度の高い11クラス分類タスクや,実用的なマルウェア解析の例において,良好な結果を示す。
論文 参考訳(メタデータ) (2025-04-02T08:36:27Z) - Beyond the Edge of Function: Unraveling the Patterns of Type Recovery in Binary Code [55.493408628371235]
本稿では,バイナリコードの変数型を復元するフレームワークByteTRを提案する。
ByteTRは、関数間の変数伝搬の普遍性を考慮して、変数伝搬をトレースするためのプロシーダ間解析を行い、ゲートグラフニューラルネットワークを用いて、変数型回復のための長距離データフロー依存性をキャプチャする。
論文 参考訳(メタデータ) (2025-03-10T12:27:05Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis [6.093226756571566]
我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。
具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。
実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-14T05:13:48Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching [8.655595404611821]
BinaryAIは2フェーズのバイナリソースコードマッチングを備えた新しいバイナリ・ソースSCA技術で、構文的および意味的両方のコード特徴をキャプチャする。
実験の結果、バイナリソースコードマッチングと下流SCAタスクにおいて、BinaryAIの優れた性能を示しました。
論文 参考訳(メタデータ) (2024-01-20T07:57:57Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [2.2329530239800035]
モデルがバイナリコードの複雑なニュアンスをキャプチャすることを保証するために,新しいリッチ・セマンティック関数表現手法を提案する。
新たに設計された2つのトレーニングタスクを含むUniASMという,UniLMベースのバイナリコード埋め込みモデルを紹介した。
実験の結果,UniASMは評価データセットに対する最先端(SOTA)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。