論文の概要: BinBert: Binary Code Understanding with a Fine-tunable and
Execution-aware Transformer
- arxiv url: http://arxiv.org/abs/2208.06692v1
- Date: Sat, 13 Aug 2022 17:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:57:41.151050
- Title: BinBert: Binary Code Understanding with a Fine-tunable and
Execution-aware Transformer
- Title(参考訳): BinBert: 微調整で実行可能な変換器によるバイナリコード理解
- Authors: Fiorella Artuso, Marco Mormando, Giuseppe A. Di Luna, Leonardo
Querzoni
- Abstract要約: 本稿では,新しいアセンブリコードモデルであるBinBertを紹介する。
BinBertは、アセンブリ命令シーケンスとシンボル実行情報の巨大なデータセットに基づいて事前トレーニングされたトランスフォーマー上に構築されている。
微調整を通じて、BinBertは特定のタスクに事前学習で得られた一般的な知識をどう適用するかを学ぶ。
- 参考スコア(独自算出の注目度): 2.8523943706562638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent trend in binary code analysis promotes the use of neural solutions
based on instruction embedding models. An instruction embedding model is a
neural network that transforms sequences of assembly instructions into
embedding vectors. If the embedding network is trained such that the
translation from code to vectors partially preserves the semantic, the network
effectively represents an assembly code model.
In this paper we present BinBert, a novel assembly code model. BinBert is
built on a transformer pre-trained on a huge dataset of both assembly
instruction sequences and symbolic execution information. BinBert can be
applied to assembly instructions sequences and it is fine-tunable, i.e. it can
be re-trained as part of a neural architecture on task-specific data. Through
fine-tuning, BinBert learns how to apply the general knowledge acquired with
pre-training to the specific task.
We evaluated BinBert on a multi-task benchmark that we specifically designed
to test the understanding of assembly code. The benchmark is composed of
several tasks, some taken from the literature, and a few novel tasks that we
designed, with a mix of intrinsic and downstream tasks.
Our results show that BinBert outperforms state-of-the-art models for binary
instruction embedding, raising the bar for binary code understanding.
- Abstract(参考訳): バイナリコード解析の最近のトレンドは、命令埋め込みモデルに基づいたニューラルネットワークの利用を促進する。
命令埋め込みモデルは、アセンブリ命令のシーケンスを埋め込みベクトルに変換するニューラルネットワークである。
埋め込みネットワークがコードからベクターへの変換が部分的にセマンティクスを保存するように訓練された場合、ネットワークは実質的にアセンブリコードモデルを表す。
本稿では,新しいアセンブリコードモデルであるBinBertを紹介する。
BinBertは、アセンブリ命令シーケンスとシンボル実行情報の巨大なデータセットに基づいて事前トレーニングされたトランスフォーマー上に構築されている。
BinBertはアセンブリ命令シーケンスに適用することができ、タスク固有のデータに対するニューラルアーキテクチャの一部として再トレーニングすることができる。
微調整を通じて、BinBertは特定のタスクに事前学習で得られた一般的な知識をどう適用するかを学ぶ。
我々は、アセンブリコードの理解をテストするために特別に設計されたマルチタスクベンチマークでBinBertを評価した。
ベンチマークはいくつかのタスクで構成されており、いくつかは文献から引用したものと、私たちが設計したいくつかの新しいタスクで構成されています。
その結果、binbertはバイナリ命令埋め込みの最先端モデルよりも優れており、バイナリコード理解のバーを高くしていることがわかった。
関連論文リスト
- BinSym: Binary-Level Symbolic Execution using Formal Descriptions of Instruction Semantics [2.4576576560952788]
BinSymはバイナリ形式でソフトウェアを記号的に解析するフレームワークである。
バイナリコード命令を直接操作し、中間表現にリフティングする必要はない。
論文 参考訳(メタデータ) (2024-04-05T14:29:39Z) - CLAP: Learning Transferable Binary Code Representations with Natural
Language Supervision [22.42846252594693]
本稿では,言語指導を利用してバイナリコードのより良い表現を学習するCLAP(Contrastive Language-Assembly Pre-training)を提案する。
中心となるアプローチは、バイナリコードとセマンティックスの説明を効果的に整合させることで、優れたトランスファー学習能力を向上する。
私たちは1億9500万のバイナリコードと説明を生成し、CLAPのプロトタイプをトレーニングしました。
論文 参考訳(メタデータ) (2024-02-26T13:49:52Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - PalmTree: Learning an Assembly Language Model for Instruction Embedding [8.74990895782223]
汎用命令埋め込み生成のためのアセンブリ言語モデルであるPalmTreeの事前トレーニングを提案する。
PalmTreeは固有のメトリクスに対して最高のパフォーマンスを持ち、下流タスクの他の命令埋め込みスキームよりも優れています。
論文 参考訳(メタデータ) (2021-01-21T22:30:01Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。