論文の概要: Pre-Training Representations of Binary Code Using Contrastive Learning
- arxiv url: http://arxiv.org/abs/2210.05102v4
- Date: Fri, 13 Dec 2024 06:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:14.075309
- Title: Pre-Training Representations of Binary Code Using Contrastive Learning
- Title(参考訳): コントラスト学習を用いたバイナリコードの事前学習表現
- Authors: Yifan Zhang, Chen Huang, Yueke Zhang, Kevin Cao, Scott Thomas Andersen, Huajie Shao, Kevin Leach, Yu Huang,
- Abstract要約: ContraBinは、ソースコードとコメント情報をバイナリと統合する、対照的な学習テクニックである。
我々は、人書きと合成コメントがバイナリコード理解タスクに与える影響を分析する。
- 参考スコア(独自算出の注目度): 13.570375923483452
- License:
- Abstract: Binary code analysis and comprehension is critical to applications in reverse engineering and computer security tasks where source code is not available. Unfortunately, unlike source code, binary code lacks semantics and is more difficult for human engineers to understand and analyze. In this paper, we present ContraBin, a contrastive learning technique that integrates source code and comment information along with binaries to create an embedding capable of aiding binary analysis and comprehension tasks. Specifically, we present three components in ContraBin: (1) a primary contrastive learning method for initial pre-training, (2) a simplex interpolation method to integrate source code, comments, and binary code, and (3) an intermediate representation learning algorithm to train a binary code embedding. We further analyze the impact of human-written and synthetic comments on binary code comprehension tasks, revealing a significant performance disparity. While synthetic comments provide substantial benefits, human-written comments are found to introduce noise, even resulting in performance drops compared to using no comments. These findings reshape the narrative around the role of comment types in binary code analysis. We evaluate the effectiveness of ContraBin through four indicative downstream tasks related to binary code: algorithmic functionality classification, function name recovery, code summarization, and reverse engineering. The results show that ContraBin considerably improves performance on all four tasks, measured by accuracy, mean of average precision, and BLEU scores as appropriate. ContraBin is the first language representation model to incorporate source code, binary code, and comments into contrastive code representation learning and is intended to contribute to the field of binary code analysis. The dataset used in this study is available for further research.
- Abstract(参考訳): バイナリコード解析と理解は、ソースコードが利用できないリバースエンジニアリングやコンピュータセキュリティタスクのアプリケーションには不可欠である。
残念なことに、ソースコードとは異なり、バイナリコードはセマンティクスに欠けており、人間のエンジニアが理解し分析することがより困難である。
本稿では,ソースコードとコメント情報をバイナリと統合したコントラスト学習手法であるContraBinについて述べる。
具体的には,ContraBinの3つのコンポーネントについて述べる。(1)初期訓練のための第一のコントラスト学習法,(2)ソースコード,コメント,バイナリコードを統合する単純な補間法,(3)バイナリコード埋め込みを訓練する中間表現学習アルゴリズム。
さらに、人間によるコメントと合成コメントがバイナリコード理解タスクに与える影響を解析し、大幅な性能格差を明らかにした。
合成コメントは大きなメリットをもたらすが、人間によるコメントはノイズを導入し、コメントを使わない場合に比べてパフォーマンスが低下する。
これらの知見は、バイナリコード解析におけるコメント型の役割に関する物語を再形成する。
本稿では,アルゴリズム機能分類,関数名復元,コード要約,リバースエンジニアリングという,バイナリコードに関連する4つのダウンストリームタスクを通じてContraBinの有効性を評価する。
その結果,ContraBinは,精度,平均精度,BLEUスコアの4つのタスクすべてにおいて,適切な精度で性能を向上することがわかった。
ContraBinは、ソースコード、バイナリコード、コメントを対照的なコード表現学習に組み込んだ最初の言語表現モデルであり、バイナリコード解析の分野に貢献することを意図している。
この研究で使用されるデータセットは、さらなる研究のために利用可能である。
関連論文リスト
- On the Role of Pre-trained Embeddings in Binary Code Analysis [7.161446721947512]
事前訓練されたアセンブリコードの埋め込みは、バイナリコード解析タスクを解決するためのゴールドスタンダードになっている。
自然言語処理とは対照的に、ラベル情報はバイナリコード解析において多くのタスクにおいて不足しない。
我々は,120万関数のコーパスを用いて,5つの下流タスクに対するアセンブリコードに対する最近の埋め込みを体系的に評価した。
論文 参考訳(メタデータ) (2025-02-12T10:50:46Z) - When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM [6.417777780911223]
コードコメントは、プログラマに実用的な情報を提供するため、ソフトウェア開発において重要な役割を果たす。
開発者はコードを更新した後、コメントをそのまま残す傾向があり、2つのアーティファクトの間に相違が生じます。
コードスニペットが与えられたら、そのコメントが一貫性があり、コードの背後にある意図をよく反映しているかどうかを特定することが重要です。
論文 参考訳(メタデータ) (2024-05-25T15:21:27Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - Leveraging Artificial Intelligence on Binary Code Comprehension [5.236023714727536]
本稿では,バイナリコードの人間の理解を支援する人工知能(AI)モデルを提案する。
具体的には、ソースコードの大規模なコーパス(変数名やコメントなど)からドメイン知識を取り入れて、バイナリコードの一般化可能な表現をキャプチャするAIモデルを構築することを提案する。
最後に、人間による理解の研究を用いて、バイナリコードに適用するモデルの性能を評価するためのメトリクスについて検討する。
論文 参考訳(メタデータ) (2022-10-11T02:39:29Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。