論文の概要: Unsupervised Binary Code Translation with Application to Code Similarity Detection and Vulnerability Discovery
- arxiv url: http://arxiv.org/abs/2404.19025v1
- Date: Mon, 29 Apr 2024 18:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:19:58.277327
- Title: Unsupervised Binary Code Translation with Application to Code Similarity Detection and Vulnerability Discovery
- Title(参考訳): 教師なしバイナリコード翻訳とコード類似性検出と脆弱性発見への応用
- Authors: Iftakhar Ahmad, Lannan Luo,
- Abstract要約: クロスアーキテクチャのバイナリコード解析が新たな問題となっている。
ディープラーニングベースのバイナリ分析は、有望な成功を収めている。
低リソースのISAでは、十分な量のデータを見つけることは困難である。
- 参考スコア(独自算出の注目度): 2.022692275087205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binary code analysis has immense importance in the research domain of software security. Today, software is very often compiled for various Instruction Set Architectures (ISAs). As a result, cross-architecture binary code analysis has become an emerging problem. Recently, deep learning-based binary analysis has shown promising success. It is widely known that training a deep learning model requires a massive amount of data. However, for some low-resource ISAs, an adequate amount of data is hard to find, preventing deep learning from being widely adopted for binary analysis. To overcome the data scarcity problem and facilitate cross-architecture binary code analysis, we propose to apply the ideas and techniques in Neural Machine Translation (NMT) to binary code analysis. Our insight is that a binary, after disassembly, is represented in some assembly language. Given a binary in a low-resource ISA, we translate it to a binary in a high-resource ISA (e.g., x86). Then we can use a model that has been trained on the high-resource ISA to test the translated binary. We have implemented the model called UNSUPERBINTRANS, and conducted experiments to evaluate its performance. Specifically, we conducted two downstream tasks, including code similarity detection and vulnerability discovery. In both tasks, we achieved high accuracies.
- Abstract(参考訳): バイナリコード分析は、ソフトウェアセキュリティの研究領域において非常に重要である。
今日では、ソフトウェアは様々なインストラクション・セット・アーキテクチャ(ISA)のためにしばしばコンパイルされる。
その結果,クロスアーキテクチャのバイナリコード解析が新たな問題となっている。
近年,ディープラーニングに基づくバイナリ分析は有望な成功を収めている。
ディープラーニングモデルのトレーニングには大量のデータが必要であることは広く知られている。
しかし、一部の低リソースISAでは、十分な量のデータを見つけることは困難であり、深層学習がバイナリ解析に広く採用されるのを防ぐことができる。
データ不足の問題を克服し、クロスアーキテクチャのバイナリコード解析を容易にするために、ニューラルネットワーク翻訳(NMT)のアイデアとテクニックをバイナリコード解析に適用することを提案する。
私たちの洞察では、バイナリは分解された後、アセンブリ言語で表現されます。
低リソースISAのバイナリを与えられた場合、高リソースISA(例えば、x86)のバイナリに変換します。
次に、高リソースISAでトレーニングされたモデルを使用して、翻訳されたバイナリをテストする。
我々はUNSUPERBINTRANSと呼ばれるモデルを実装し,その性能評価実験を行った。
具体的には、コード類似性検出と脆弱性発見という、2つの下流タスクを実行しました。
どちらの仕事でも、私たちは高い評価を得た。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis [6.093226756571566]
我々は、BinSimDBと呼ばれる細粒度のバイナリコード類似性解析のためのベンチマークデータセットを構築した。
具体的には,2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。
実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-14T05:13:48Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - BiBench: Benchmarking and Analyzing Network Binarization [72.59760752906757]
ネットワークバイナライゼーションは、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つとして出現する。
精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。
ネットワークバイナライゼーションのための深度解析を用いた厳密に設計されたベンチマークであるBiBenchを提案する。
論文 参考訳(メタデータ) (2023-01-26T17:17:16Z) - Leveraging Artificial Intelligence on Binary Code Comprehension [5.236023714727536]
本稿では,バイナリコードの人間の理解を支援する人工知能(AI)モデルを提案する。
具体的には、ソースコードの大規模なコーパス(変数名やコメントなど)からドメイン知識を取り入れて、バイナリコードの一般化可能な表現をキャプチャするAIモデルを構築することを提案する。
最後に、人間による理解の研究を用いて、バイナリコードに適用するモデルの性能を評価するためのメトリクスについて検討する。
論文 参考訳(メタデータ) (2022-10-11T02:39:29Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z) - A Natural Language Processing Approach for Instruction Set Architecture
Identification [6.495883501989546]
符号化されたバイナリの文字レベルの特徴を導入し、各ISA固有のきめ細かいビットパターンを識別する。
提案手法は,バイト・ヒストグラムとバイト・パターン・シグネチャに基づく最先端特徴よりも8%高い精度が得られる。
論文 参考訳(メタデータ) (2022-04-13T19:45:06Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - BATS: Binary ArchitecTure Search [56.87581500474093]
ニューラルアーキテクチャ検索をバイナリドメインに直接適用すると、非常に貧弱な結果が得られることを示す。
具体的には、新しいバイナリ指向検索空間を導入し、設計する。
また、CIFAR10、CIFAR100、ImageNetデータセット上に、バイナリニューラルネットワークのための新しい最先端技術も設定しました。
論文 参考訳(メタデータ) (2020-03-03T18:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。