論文の概要: Fool Me If You Can: On the Robustness of Binary Code Similarity Detection Models against Semantics-preserving Transformations
- arxiv url: http://arxiv.org/abs/2602.12681v1
- Date: Fri, 13 Feb 2026 07:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.878799
- Title: Fool Me If You Can: On the Robustness of Binary Code Similarity Detection Models against Semantics-preserving Transformations
- Title(参考訳): 2値コード類似性検出モデルのセマンティックス保存変換に対するロバスト性について
- Authors: Jiyong Uhm, Minseok Kim, Michalis Polychronakis, Hyungjoon Koo,
- Abstract要約: バイナリコード類似性検出作業におけるディープラーニングモデルの堅牢性を評価する。
620のベースラインサンプルから9,565のバイナリ変数のデータセットを構築した。
- 参考スコア(独自算出の注目度): 7.222996408214315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binary code analysis plays an essential role in cybersecurity, facilitating reverse engineering to reveal the inner workings of programs in the absence of source code. Traditional approaches, such as static and dynamic analysis, extract valuable insights from stripped binaries, but often demand substantial expertise and manual effort. Recent advances in deep learning have opened promising opportunities to enhance binary analysis by capturing latent features and disclosing underlying code semantics. Despite the growing number of binary analysis models based on machine learning, their robustness to adversarial code transformations at the binary level remains underexplored. We evaluate the robustness of deep learning models for the task of binary code similarity detection (BCSD) under semantics-preserving transformations. The unique nature of machine instructions presents distinct challenges compared to the typical input perturbations found in other domains. We introduce asmFooler, a system that evaluates the resilience of BCSD models using a diverse set of adversarial code transformations that preserve functional semantics. We construct a dataset of 9,565 binary variants from 620 baseline samples by applying eight semantics-preserving transformations across six representative BCSD models. Our major findings highlight several key insights: i) model robustness relies on the processing pipeline, including code pre-processing, architecture, and feature selection; ii) adversarial transformation effectiveness is bounded by a budget shaped by model-specific constraints like input size and instruction expressive capacity; iii) well-crafted transformations can be highly effective with minimal perturbations; and iv) such transformations efficiently disrupt model decisions (e.g., misleading to false positives or false negatives) by focusing on semantically significant instructions.
- Abstract(参考訳): バイナリコード分析はサイバーセキュリティにおいて重要な役割を担い、リバースエンジニアリングによってソースコードがないプログラムの内部動作を明らかにする。
静的および動的解析のような伝統的なアプローチは、取り除かれたバイナリから貴重な洞察を抽出するが、しばしばかなりの専門知識と手作業を必要とする。
ディープラーニングの最近の進歩は、潜伏した特徴をキャプチャし、基礎となるコードセマンティクスを開示することによってバイナリ分析を強化する、有望な機会を開いた。
機械学習に基づくバイナリ分析モデルの増加にもかかわらず、バイナリレベルでの逆コード変換に対する堅牢性はいまだ検討されていない。
セマンティクス保存変換に基づくバイナリコード類似度検出(BCSD)タスクにおけるディープラーニングモデルの堅牢性を評価する。
機械命令の独特な性質は、他の領域で見られる典型的な入力摂動と異なる課題を示す。
本稿では,機能的セマンティクスを保存した多種多様な逆コード変換を用いて,BCGモデルのレジリエンスを評価するシステムであるasmFoolerを紹介する。
6つのBCGモデルに8つのセマンティックス保存変換を適用することにより、620のベースラインサンプルから9,565のバイナリ変数のデータセットを構築した。
私たちの主要な発見は、いくつかの重要な洞察を浮き彫りにした。
一 モデル堅牢性は、コード前処理、アーキテクチャ、特徴選択を含む処理パイプラインに依存している。
二 逆変換の有効性は、入力サイズ及び指示表現能力等のモデル固有の制約により形づくられた予算により制限される。
三 熟練した変換は、最小限の摂動で非常に効果的であることができる。
四 このような変換は、意味的に重要な指示に焦点を当てて、モデル決定(例えば、偽陽性又は偽陰性)を効果的に妨害する。
関連論文リスト
- Cross-modal Retrieval Models for Stripped Binary Analysis [62.89251403093734]
BinSeekは、取り除かれたバイナリコード分析のための最初の2段階のクロスモーダル検索フレームワークである。
BinSeekEmbeddingは、バイナリコードのセマンティックな関連性を学ぶために、大規模なデータセットでトレーニングされている。
BinSeek-Rerankerは、コンテキスト拡張による記述に対する候補コードの関連性を慎重に判断することを学ぶ。
論文 参考訳(メタデータ) (2025-12-11T07:58:10Z) - Beyond the Edge of Function: Unraveling the Patterns of Type Recovery in Binary Code [55.493408628371235]
本稿では,バイナリコードの変数型を復元するフレームワークByteTRを提案する。
ByteTRは、関数間の変数伝搬の普遍性を考慮して、変数伝搬をトレースするためのプロシーダ間解析を行い、ゲートグラフニューラルネットワークを用いて、変数型回復のための長距離データフロー依存性をキャプチャする。
論文 参考訳(メタデータ) (2025-03-10T12:27:05Z) - A Progressive Transformer for Unifying Binary Code Embedding and Knowledge Transfer [15.689556592544667]
本稿では,バイナリコード埋め込みのための新しいトランスフォーマーベースの手法であるProTSTを紹介する。
ProTSTは、独特の木のような構造に基づく階層的なトレーニングプロセスを採用している。
その結果, ProTSTは従来の2段階トレーニングに比べて14.8%改善した(F1, MRR, Recall@1)。
論文 参考訳(メタデータ) (2024-12-15T13:04:29Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [2.2329530239800035]
モデルがバイナリコードの複雑なニュアンスをキャプチャすることを保証するために,新しいリッチ・セマンティック関数表現手法を提案する。
新たに設計された2つのトレーニングタスクを含むUniASMという,UniLMベースのバイナリコード埋め込みモデルを紹介した。
実験の結果,UniASMは評価データセットに対する最先端(SOTA)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。
計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。
我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文 参考訳(メタデータ) (2021-10-07T15:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。