論文の概要: Unsupervised Binary Code Translation with Application to Code Similarity Detection and Vulnerability Discovery
- arxiv url: http://arxiv.org/abs/2404.19025v1
- Date: Mon, 29 Apr 2024 18:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:19:58.277327
- Title: Unsupervised Binary Code Translation with Application to Code Similarity Detection and Vulnerability Discovery
- Title(参考訳): 教師なしバイナリコード翻訳とコード類似性検出と脆弱性発見への応用
- Authors: Iftakhar Ahmad, Lannan Luo,
- Abstract要約: クロスアーキテクチャのバイナリコード解析が新たな問題となっている。
ディープラーニングベースのバイナリ分析は、有望な成功を収めている。
低リソースのISAでは、十分な量のデータを見つけることは困難である。
- 参考スコア(独自算出の注目度): 2.022692275087205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binary code analysis has immense importance in the research domain of software security. Today, software is very often compiled for various Instruction Set Architectures (ISAs). As a result, cross-architecture binary code analysis has become an emerging problem. Recently, deep learning-based binary analysis has shown promising success. It is widely known that training a deep learning model requires a massive amount of data. However, for some low-resource ISAs, an adequate amount of data is hard to find, preventing deep learning from being widely adopted for binary analysis. To overcome the data scarcity problem and facilitate cross-architecture binary code analysis, we propose to apply the ideas and techniques in Neural Machine Translation (NMT) to binary code analysis. Our insight is that a binary, after disassembly, is represented in some assembly language. Given a binary in a low-resource ISA, we translate it to a binary in a high-resource ISA (e.g., x86). Then we can use a model that has been trained on the high-resource ISA to test the translated binary. We have implemented the model called UNSUPERBINTRANS, and conducted experiments to evaluate its performance. Specifically, we conducted two downstream tasks, including code similarity detection and vulnerability discovery. In both tasks, we achieved high accuracies.
- Abstract(参考訳): バイナリコード分析は、ソフトウェアセキュリティの研究領域において非常に重要である。
今日では、ソフトウェアは様々なインストラクション・セット・アーキテクチャ(ISA)のためにしばしばコンパイルされる。
その結果,クロスアーキテクチャのバイナリコード解析が新たな問題となっている。
近年,ディープラーニングに基づくバイナリ分析は有望な成功を収めている。
ディープラーニングモデルのトレーニングには大量のデータが必要であることは広く知られている。
しかし、一部の低リソースISAでは、十分な量のデータを見つけることは困難であり、深層学習がバイナリ解析に広く採用されるのを防ぐことができる。
データ不足の問題を克服し、クロスアーキテクチャのバイナリコード解析を容易にするために、ニューラルネットワーク翻訳(NMT)のアイデアとテクニックをバイナリコード解析に適用することを提案する。
私たちの洞察では、バイナリは分解された後、アセンブリ言語で表現されます。
低リソースISAのバイナリを与えられた場合、高リソースISA(例えば、x86)のバイナリに変換します。
次に、高リソースISAでトレーニングされたモデルを使用して、翻訳されたバイナリをテストする。
我々はUNSUPERBINTRANSと呼ばれるモデルを実装し,その性能評価実験を行った。
具体的には、コード類似性検出と脆弱性発見という、2つの下流タスクを実行しました。
どちらの仕事でも、私たちは高い評価を得た。
関連論文リスト
- How Far Have We Gone in Stripped Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - BiBench: Benchmarking and Analyzing Network Binarization [72.59760752906757]
ネットワークバイナライゼーションは、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つとして出現する。
精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。
ネットワークバイナライゼーションのための深度解析を用いた厳密に設計されたベンチマークであるBiBenchを提案する。
論文 参考訳(メタデータ) (2023-01-26T17:17:16Z) - Leveraging Artificial Intelligence on Binary Code Comprehension [5.236023714727536]
本稿では,バイナリコードの人間の理解を支援する人工知能(AI)モデルを提案する。
具体的には、ソースコードの大規模なコーパス(変数名やコメントなど)からドメイン知識を取り入れて、バイナリコードの一般化可能な表現をキャプチャするAIモデルを構築することを提案する。
最後に、人間による理解の研究を用いて、バイナリコードに適用するモデルの性能を評価するためのメトリクスについて検討する。
論文 参考訳(メタデータ) (2022-10-11T02:39:29Z) - Pre-Training Representations of Binary Code Using Contrastive Learning [14.1548548120994]
本稿では、表現学習中にソースコードとコメント情報をバイナリコードに組み込む、バイナリcOde分析のためのContrastive Learning Model(COMBO)を提案する。
COMBOは、ソースコード、バイナリコード、コメントをコントラストコード表現学習に組み込んだ最初の言語表現モデルである。
論文 参考訳(メタデータ) (2022-10-11T02:39:06Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z) - A Natural Language Processing Approach for Instruction Set Architecture
Identification [6.495883501989546]
符号化されたバイナリの文字レベルの特徴を導入し、各ISA固有のきめ細かいビットパターンを識別する。
提案手法は,バイト・ヒストグラムとバイト・パターン・シグネチャに基づく最先端特徴よりも8%高い精度が得られる。
論文 参考訳(メタデータ) (2022-04-13T19:45:06Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - LLC: Accurate, Multi-purpose Learnt Low-dimensional Binary Codes [55.32790803903619]
本稿では,クラスだけでなくインスタンスの低次元バイナリコード(LLC)を学習するための新しい手法を提案する。
アノテーション付き属性やラベルメタデータなど,副作用は一切不要です。
学習したコードは、クラスに対して直感的な分類法を発見することによって、データの中で本質的に重要な特徴をキャプチャすることを示した。
論文 参考訳(メタデータ) (2021-06-02T21:57:52Z) - BATS: Binary ArchitecTure Search [56.87581500474093]
ニューラルアーキテクチャ検索をバイナリドメインに直接適用すると、非常に貧弱な結果が得られることを示す。
具体的には、新しいバイナリ指向検索空間を導入し、設計する。
また、CIFAR10、CIFAR100、ImageNetデータセット上に、バイナリニューラルネットワークのための新しい最先端技術も設定しました。
論文 参考訳(メタデータ) (2020-03-03T18:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。