論文の概要: Semantic-aware Binary Code Representation with BERT
- arxiv url: http://arxiv.org/abs/2106.05478v1
- Date: Thu, 10 Jun 2021 03:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:06:09.877033
- Title: Semantic-aware Binary Code Representation with BERT
- Title(参考訳): BERTを用いた意味認識型バイナリコード表現
- Authors: Hyungjoon Koo, Soyeon Park, Daejin Choi, Taesoo Kim
- Abstract要約: バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
- 参考スコア(独自算出の注目度): 27.908093567605484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A wide range of binary analysis applications, such as bug discovery, malware
analysis and code clone detection, require recovery of contextual meanings on a
binary code. Recently, binary analysis techniques based on machine learning
have been proposed to automatically reconstruct the code representation of a
binary instead of manually crafting specifics of the analysis algorithm.
However, the existing approaches utilizing machine learning are still
specialized to solve one domain of problems, rendering recreation of models for
different types of binary analysis. In this paper, we propose DeepSemantic
utilizing BERT in producing the semantic-aware code representation of a binary
code.
To this end, we introduce well-balanced instruction normalization that holds
rich information for each of instructions yet minimizing an out-of-vocabulary
(OOV) problem. DeepSemantic has been carefully designed based on our study with
large swaths of binaries. Besides, DeepSemantic leverages the essence of the
BERT architecture into re-purposing a pre-trained generic model that is readily
available as a one-time processing, followed by quickly applying specific
downstream tasks with a fine-tuning process. We demonstrate DeepSemantic with
two downstream tasks, namely, binary similarity comparison and compiler
provenance (i.e., compiler and optimization level) prediction. Our experimental
results show that the binary similarity model outperforms two state-of-the-art
binary similarity tools, DeepBinDiff and SAFE, 49.84% and 15.83% on average,
respectively.
- Abstract(参考訳): バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,解析アルゴリズムの具体化を手作業で行うのではなく,バイナリのコード表現を自動的に再構築する機械学習に基づくバイナリ解析手法が提案されている。
しかし、機械学習を利用する既存のアプローチは、1つの領域の問題を解くのに特化しており、異なるタイプのバイナリ分析のためのモデルのレクリエーションを行っている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
そこで本研究では,オフオブボキャブラリー問題 (oov) を最小化しつつ,各命令に対して豊富な情報を保持する,バランスの取れた命令正規化を導入する。
DeepSemanticは、大量のバイナリを用いて、我々の研究に基づいて慎重に設計されている。
さらに、deepsemanticはbertアーキテクチャの本質を活用して、事前訓練されたジェネリックモデルを再提案し、ワンタイム処理として容易に利用し、その後、微調整プロセスで特定のダウンストリームタスクを迅速に適用する。
我々は、DeepSemanticを2つのダウンストリームタスク、すなわちバイナリ類似性比較とコンパイラ証明(コンパイラと最適化レベル)予測で実証する。
実験の結果,2値類似性モデルは,DeepBinDiffとSAFEの2つの最先端の2値類似性ツール,平均で49.84%,平均で15.83%を上回っていることがわかった。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis [6.093226756571566]
我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。
具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。
実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-14T05:13:48Z) - Unsupervised Binary Code Translation with Application to Code Similarity Detection and Vulnerability Discovery [2.022692275087205]
クロスアーキテクチャのバイナリコード解析が新たな問題となっている。
ディープラーニングベースのバイナリ分析は、有望な成功を収めている。
低リソースのISAでは、十分な量のデータを見つけることは困難である。
論文 参考訳(メタデータ) (2024-04-29T18:09:28Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - BiBench: Benchmarking and Analyzing Network Binarization [72.59760752906757]
ネットワークバイナライゼーションは、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つとして出現する。
精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。
ネットワークバイナライゼーションのための深度解析を用いた厳密に設計されたベンチマークであるBiBenchを提案する。
論文 参考訳(メタデータ) (2023-01-26T17:17:16Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Pre-Training Representations of Binary Code Using Contrastive Learning [13.570375923483452]
本稿では、表現学習中にソースコードとコメント情報をバイナリコードに組み込む、バイナリcOde分析のためのContrastive Learning Model(COMBO)を提案する。
COMBOは、ソースコード、バイナリコード、コメントをコントラストコード表現学習に組み込んだ最初の言語表現モデルである。
論文 参考訳(メタデータ) (2022-10-11T02:39:06Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z) - Bin2vec: Learning Representations of Binary Executable Programs for
Security Tasks [15.780176500971244]
我々は、計算プログラムグラフとともに、GCN(Graph Convolutional Networks)を活用する新しいアプローチであるBin2vecを紹介する。
我々は,2つの意味的に異なるバイナリ解析タスクを解くために,我々の表現を用いることで,このアプローチの汎用性を実証する。
我々は、ソースコードベースのinst2vecアプローチと比較して、分類誤差を40%削減して、新しい最先端結果を設定した。
論文 参考訳(メタデータ) (2020-02-09T15:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。