論文の概要: On the Role of Pre-trained Embeddings in Binary Code Analysis
- arxiv url: http://arxiv.org/abs/2502.08682v1
- Date: Wed, 12 Feb 2025 10:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:54.273593
- Title: On the Role of Pre-trained Embeddings in Binary Code Analysis
- Title(参考訳): バイナリコード解析における事前学習埋め込みの役割について
- Authors: Alwin Maier, Felix Weissberg, Konrad Rieck,
- Abstract要約: 事前訓練されたアセンブリコードの埋め込みは、バイナリコード解析タスクを解決するためのゴールドスタンダードになっている。
自然言語処理とは対照的に、ラベル情報はバイナリコード解析において多くのタスクにおいて不足しない。
我々は,120万関数のコーパスを用いて,5つの下流タスクに対するアセンブリコードに対する最近の埋め込みを体系的に評価した。
- 参考スコア(独自算出の注目度): 7.161446721947512
- License:
- Abstract: Deep learning has enabled remarkable progress in binary code analysis. In particular, pre-trained embeddings of assembly code have become a gold standard for solving analysis tasks, such as measuring code similarity or recognizing functions. These embeddings are capable of learning a vector representation from unlabeled code. In contrast to natural language processing, however, label information is not scarce for many tasks in binary code analysis. For example, labeled training data for function boundaries, optimization levels, and argument types can be easily derived from debug information provided by a compiler. Consequently, the main motivation of embeddings does not transfer directly to binary code analysis. In this paper, we explore the role of pre-trained embeddings from a critical perspective. To this end, we systematically evaluate recent embeddings for assembly code on five downstream tasks using a corpus of 1.2 million functions from the Debian distribution. We observe that several embeddings perform similarly when sufficient labeled data is available, and that differences reported in prior work are hardly noticeable. Surprisingly, we find that end-to-end learning without pre-training performs best on average, which calls into question the need for specialized embeddings. By varying the amount of labeled data, we eventually derive guidelines for when embeddings offer advantages and when end-to-end learning is preferable for binary code analysis.
- Abstract(参考訳): ディープラーニングはバイナリコード解析の大幅な進歩を可能にした。
特に、事前訓練されたアセンブリコードの埋め込みは、コード類似性の測定や関数の認識といった分析タスクを解くための金の標準となっている。
これらの埋め込みは、ラベルのないコードからベクトル表現を学ぶことができる。
しかし、自然言語処理とは対照的に、バイナリコード解析における多くのタスクにおいてラベル情報は不足しない。
例えば、関数境界、最適化レベル、引数タイプのためのラベル付きトレーニングデータは、コンパイラが提供するデバッグ情報から簡単に抽出できる。
したがって、埋め込みの主な動機はバイナリコード分析に直接移行しない。
本稿では, 批判的観点から, 事前学習型埋め込みの役割について考察する。
そこで我々は,Debianディストリビューションから120万関数のコーパスを用いて,5つの下流タスクに対するアセンブリコードに対する最近の埋め込みを体系的に評価した。
我々は,ラベル付きデータが十分に利用可能である場合に,複数の埋め込みが同様に動作することを観察し,事前の作業で報告された差異がほとんど認識できないことを確認した。
意外なことに、事前学習のないエンドツーエンドの学習は、平均して最高の成績を収めており、特殊な埋め込みの必要性に疑問を投げかける。
ラベル付きデータの量を変えることで、埋め込みが利点を提供する場合と、エンドツーエンドの学習がバイナリコード解析に好まれる場合のガイドラインを導出します。
関連論文リスト
- LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - CLAP: Learning Transferable Binary Code Representations with Natural
Language Supervision [22.42846252594693]
本稿では,言語指導を利用してバイナリコードのより良い表現を学習するCLAP(Contrastive Language-Assembly Pre-training)を提案する。
中心となるアプローチは、バイナリコードとセマンティックスの説明を効果的に整合させることで、優れたトランスファー学習能力を向上する。
私たちは1億9500万のバイナリコードと説明を生成し、CLAPのプロトタイプをトレーニングしました。
論文 参考訳(メタデータ) (2024-02-26T13:49:52Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - Pre-Training Representations of Binary Code Using Contrastive Learning [13.570375923483452]
ContraBinは、ソースコードとコメント情報をバイナリと統合する、対照的な学習テクニックである。
我々は、人書きと合成コメントがバイナリコード理解タスクに与える影響を分析する。
論文 参考訳(メタデータ) (2022-10-11T02:39:06Z) - SimCLF: A Simple Contrastive Learning Framework for Function-level
Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。
我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文 参考訳(メタデータ) (2022-09-06T12:09:45Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Data-Driven Approach for Log Instruction Quality Assessment [59.04636530383049]
優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。
1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。
本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
論文 参考訳(メタデータ) (2022-04-06T07:02:23Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - Towards Demystifying Dimensions of Source Code Embeddings [5.211235558099913]
Code2vecニューラルソースコードの埋め込み内容の理解を深めるための予備的な結果を示す。
以上の結果から,手工芸品は高次元のcode2vec 埋め込みに非常に近い性能が得られることが示唆された。
また、code2vecの埋め込みは、手作りの特徴よりも情報ゲインの少ない次元の除去に対して、より弾力性が高いことが判明した。
論文 参考訳(メタデータ) (2020-08-29T21:59:11Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。