論文の概要: NeuDep: Neural Binary Memory Dependence Analysis
- arxiv url: http://arxiv.org/abs/2210.02853v1
- Date: Tue, 4 Oct 2022 04:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 18:05:02.781580
- Title: NeuDep: Neural Binary Memory Dependence Analysis
- Title(参考訳): NeuDep: ニューラルバイナリメモリ依存分析
- Authors: Kexin Pei, Dongdong She, Michael Wang, Scott Geng, Zhou Xuan, Yaniv
David, Junfeng Yang, Suman Jana, Baishakhi Ray
- Abstract要約: 本稿では,バイナリプログラムの実行方法に関する学習知識を活用して,メモリ依存を予測するための機械学習に基づく新しいアプローチを提案する。
我々はNeuDepにアプローチを実装し、2つのコンパイラ、4つの最適化、4つの難読パスでコンパイルされた41の人気のあるソフトウェアプロジェクトで評価する。
- 参考スコア(独自算出の注目度): 28.33030658966508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Determining whether multiple instructions can access the same memory location
is a critical task in binary analysis. It is challenging as statically
computing precise alias information is undecidable in theory. The problem
aggravates at the binary level due to the presence of compiler optimizations
and the absence of symbols and types. Existing approaches either produce
significant spurious dependencies due to conservative analysis or scale poorly
to complex binaries.
We present a new machine-learning-based approach to predict memory
dependencies by exploiting the model's learned knowledge about how binary
programs execute. Our approach features (i) a self-supervised procedure that
pretrains a neural net to reason over binary code and its dynamic value flows
through memory addresses, followed by (ii) supervised finetuning to infer the
memory dependencies statically. To facilitate efficient learning, we develop
dedicated neural architectures to encode the heterogeneous inputs (i.e., code,
data values, and memory addresses from traces) with specific modules and fuse
them with a composition learning strategy.
We implement our approach in NeuDep and evaluate it on 41 popular software
projects compiled by 2 compilers, 4 optimizations, and 4 obfuscation passes. We
demonstrate that NeuDep is more precise (1.5x) and faster (3.5x) than the
current state-of-the-art. Extensive probing studies on security-critical
reverse engineering tasks suggest that NeuDep understands memory access
patterns, learns function signatures, and is able to match indirect calls. All
these tasks either assist or benefit from inferring memory dependencies.
Notably, NeuDep also outperforms the current state-of-the-art on these tasks.
- Abstract(参考訳): 複数の命令が同じメモリにアクセスできるかどうかを決定することは、バイナリ解析において重要なタスクである。
正確なエイリアス情報を静的に計算することは理論的には決定不可能である。
この問題は、コンパイラの最適化の存在とシンボルや型がないことによってバイナリレベルで悪化する。
既存のアプローチは、保守的な分析のために重大な急激な依存関係を生み出すか、複雑なバイナリに対して不十分にスケールする。
本稿では,バイナリプログラムの実行方法に関するモデルの学習知識を活用し,メモリ依存性を予測するための新しい機械学習手法を提案する。
アプローチの特徴
一 神経網を二進法上の推論のために事前訓練し、その動的値がメモリアドレスを流れる自己監督的手順
(ii) メモリ依存性を静的に推測するための教師付き微調整。
効率的な学習を容易にするために,我々は,ヘテロジニアス入力(すなわち,トレースからのコード,データ値,メモリアドレス)を特定のモジュールにエンコードし,合成学習戦略と融合する専用ニューラルアーキテクチャを開発した。
このアプローチをneudepで実装し,コンパイラ2つ,最適化4つ,難読化パス4つでコンパイルした41の人気のあるソフトウェアプロジェクトで評価した。
我々はNeuDepが現在の最先端技術よりも正確(1.5倍)で高速(3.5倍)であることを示した。
セキュリティクリティカルなリバースエンジニアリングタスクに関する広範な調査研究は、neudepがメモリアクセスパターンを理解し、関数シグネチャを学び、間接呼び出しをマッチングできることを示唆している。
これらのタスクはすべて、メモリ依存の推論を支援するか、恩恵を受ける。
とくに、NeuDepは、これらのタスクの現在の最先端も上回っている。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory [66.88278207591294]
本稿では,新しいより長いデータ列に対して,ニューラルネットワークによるシンボル処理の理解と適用を支援するために,Pointer-Augmented Neural Memory (PANM)を提案する。
PANMは、新しい物理アドレスとポインタ操作技術を使用して、人間とコンピュータのシンボル処理能力を模倣する外部のニューラルメモリを統合する。
論文 参考訳(メタデータ) (2024-04-18T03:03:46Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - BiBench: Benchmarking and Analyzing Network Binarization [72.59760752906757]
ネットワークバイナライゼーションは、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つとして出現する。
精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。
ネットワークバイナライゼーションのための深度解析を用いた厳密に設計されたベンチマークであるBiBenchを提案する。
論文 参考訳(メタデータ) (2023-01-26T17:17:16Z) - SimCLF: A Simple Contrastive Learning Framework for Function-level
Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。
我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文 参考訳(メタデータ) (2022-09-06T12:09:45Z) - Representation Memorization for Fast Learning New Knowledge without
Forgetting [36.55736909586313]
新しい知識を素早く学習する能力は、人間レベルの知性への大きな一歩だ。
新しいクラスやデータ配布を迅速かつ漸進的に学ぶ必要があるシナリオを考えます。
本稿では,2つの課題に対処するため,メモリベースのヘビアン適応を提案する。
論文 参考訳(メタデータ) (2021-08-28T07:54:53Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - PalmTree: Learning an Assembly Language Model for Instruction Embedding [8.74990895782223]
汎用命令埋め込み生成のためのアセンブリ言語モデルであるPalmTreeの事前トレーニングを提案する。
PalmTreeは固有のメトリクスに対して最高のパフォーマンスを持ち、下流タスクの他の命令埋め込みスキームよりも優れています。
論文 参考訳(メタデータ) (2021-01-21T22:30:01Z) - Training Binary Neural Networks through Learning with Noisy Supervision [76.26677550127656]
本稿では,ニューラルネットワーク上の二項化操作を学習の観点から定式化する。
ベンチマークデータセットの実験結果から,提案手法がベースラインよりも一貫した改善を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-10-10T01:59:39Z) - Robust High-dimensional Memory-augmented Neural Networks [13.82206983716435]
メモリ拡張ニューラルネットワークは、これらの問題を克服するために、明示的なメモリでニューラルネットワークを強化する。
この明示的なメモリへのアクセスは、各個々のメモリエントリを含むソフト読み取りおよび書き込み操作を介して行われる。
本稿では,高次元(HD)ベクトル上でのアナログインメモリ計算を行う明示メモリとして,計算メモリユニットを用いた頑健なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-05T12:01:56Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。