論文の概要: Disa: Accurate Learning-based Static Disassembly with Attentions
- arxiv url: http://arxiv.org/abs/2507.07246v1
- Date: Wed, 09 Jul 2025 19:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.186785
- Title: Disa: Accurate Learning-based Static Disassembly with Attentions
- Title(参考訳): Disa: 注意を伴う正確な学習ベースの静的分解
- Authors: Peicheng Wang, Monika Santra, Mingyu Liu, Cong Sun, Dongrui Zeng, Gang Tan,
- Abstract要約: Disaは、マルチヘッド自己アテンション上のスーパーセット命令の情報を使用して、命令の相関関係を学習する、新しい学習ベースの分解アプローチである。
Disaは、関数のエントリポイント識別において、事前のディープラーニングの分解アプローチより優れている。
- 参考スコア(独自算出の注目度): 19.40730097748233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For reverse engineering related security domains, such as vulnerability detection, malware analysis, and binary hardening, disassembly is crucial yet challenging. The fundamental challenge of disassembly is to identify instruction and function boundaries. Classic approaches rely on file-format assumptions and architecture-specific heuristics to guess the boundaries, resulting in incomplete and incorrect disassembly, especially when the binary is obfuscated. Recent advancements of disassembly have demonstrated that deep learning can improve both the accuracy and efficiency of disassembly. In this paper, we propose Disa, a new learning-based disassembly approach that uses the information of superset instructions over the multi-head self-attention to learn the instructions' correlations, thus being able to infer function entry-points and instruction boundaries. Disa can further identify instructions relevant to memory block boundaries to facilitate an advanced block-memory model based value-set analysis for an accurate control flow graph (CFG) generation. Our experiments show that Disa outperforms prior deep-learning disassembly approaches in function entry-point identification, especially achieving 9.1% and 13.2% F1-score improvement on binaries respectively obfuscated by the disassembly desynchronization technique and popular source-level obfuscator. By achieving an 18.5% improvement in the memory block precision, Disa generates more accurate CFGs with a 4.4% reduction in Average Indirect Call Targets (AICT) compared with the state-of-the-art heuristic-based approach.
- Abstract(参考訳): リバースエンジニアリング関連のセキュリティドメイン、例えば脆弱性検出、マルウェア分析、バイナリハードニングでは、分解は極めて難しい。
分解の根本的な課題は、命令と関数の境界を特定することである。
古典的なアプローチは、境界を推測するためにファイル形式的な仮定とアーキテクチャ固有のヒューリスティックに依存しており、特にバイナリが難解な場合に、不完全で正しく分解される。
近年の分解処理の進歩は、深層学習が分解処理の精度と効率の両方を改善することを実証している。
本稿では,マルチヘッド自己アテンション上のスーパーセット命令の情報を用いて,命令の相関関係を学習し,関数のエントリポイントと命令境界を推測できるDiaを提案する。
Disaはさらに、メモリブロック境界に関連する命令を特定して、正確な制御フローグラフ(CFG)生成のための高度なブロックメモリモデルに基づく値セット分析を容易にする。
実験の結果,Diaは,関数のエントリポイント識別において,特に9.1%と13.2%のF1スコア向上を達成し,非同期化技術と一般的なソースレベルの難読化手法によってそれぞれ難読化されている。
メモリブロックの精度を18.5%向上させることで、Disaは最先端のヒューリスティックベースのアプローチに比べて平均間接呼び出しターゲット(AICT)を4.4%削減した正確なCFGを生成する。
関連論文リスト
- LeakGuard: Detecting Memory Leaks Accurately and Scalably [3.256598917442277]
LeakGuardは、正確性とスケーラビリティの十分なバランスを提供するメモリリーク検出ツールである。
正確性のために、LeakGuardはライブラリと開発者が定義したメモリ割り当てとトランザクションロケーション関数の挙動を分析する。
スケーラビリティのために、LeakGuardは関数の要約と制約の少ないシンボル実行技術を用いて、興味のある各関数を独立に調べる。
論文 参考訳(メタデータ) (2025-04-06T09:11:37Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - NeuDep: Neural Binary Memory Dependence Analysis [28.33030658966508]
本稿では,バイナリプログラムの実行方法に関する学習知識を活用して,メモリ依存を予測するための機械学習に基づく新しいアプローチを提案する。
我々はNeuDepにアプローチを実装し、2つのコンパイラ、4つの最適化、4つの難読パスでコンパイルされた41の人気のあるソフトウェアプロジェクトで評価する。
論文 参考訳(メタデータ) (2022-10-04T04:59:36Z) - Statement-Level Vulnerability Detection: Learning Vulnerability Patterns Through Information Theory and Contrastive Learning [31.15123852246431]
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
実世界の脆弱なコードで観測される構造にインスパイアされ、私たちはまず、潜伏変数の集合を学習するために相互情報を活用する。
そこで我々は,表現学習をさらに改善するために,新しいクラスタ型空間コントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-09-20T00:46:20Z) - SimCLF: A Simple Contrastive Learning Framework for Function-level
Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。
我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文 参考訳(メタデータ) (2022-09-06T12:09:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。