論文の概要: BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding
- arxiv url: http://arxiv.org/abs/2409.07889v2
- Date: Mon, 03 Feb 2025 15:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:05:23.267235
- Title: BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding
- Title(参考訳): BLens: Ensemble Embedding を用いたバイナリ関数のコントラストキャプション
- Authors: Tristan Benoit, Yunru Wang, Moritz Dannehl, Johannes Kinder,
- Abstract要約: 本稿では,複数のバイナリ関数の埋め込みを新しいアンサンブル表現に組み合わせたBLensを提案する。
我々の実験は、BLensが芸術の状態を著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 3.9473538223192293
- License:
- Abstract: Function names can greatly aid human reverse engineers, which has spurred the development of machine learning-based approaches to predicting function names in stripped binaries. Much current work in this area now uses transformers, applying a metaphor of machine translation from code to function names. Still, function naming models face challenges in generalizing to projects unrelated to the training set. In this paper, we take a completely new approach by transferring advances in automated image captioning to the domain of binary reverse engineering, such that different parts of a binary function can be associated with parts of its name. We propose BLens, which combines multiple binary function embeddings into a new ensemble representation, aligns it with the name representation latent space via a contrastive learning approach, and generates function names with a transformer architecture tailored for function names. Our experiments demonstrate that BLens significantly outperforms the state of the art. In the usual setting of splitting per binary, we achieve an $F_1$ score of 0.79 compared to 0.70. In the cross-project setting, which emphasizes generalizability, we achieve an $F_1$ score of 0.46 compared to 0.29. Finally, in an experimental setting reducing shared components across projects, we achieve an $F_1$ score of $0.32$ compared to $0.19$.
- Abstract(参考訳): 関数名は人間のリバースエンジニアを大いに助けることができ、それによって、取り除かれたバイナリの関数名を予測する機械学習ベースのアプローチの開発が加速した。
この分野における現在の作業の多くはトランスフォーマーを使用しており、コードから関数名への機械翻訳のメタファーを適用している。
それでも、関数命名モデルは、トレーニングセットとは無関係なプロジェクトに一般化する際の課題に直面している。
本稿では,自動字幕化の進歩をバイナリリバースエンジニアリングの領域に転送することで,バイナリ関数の異なる部分をその名前の一部に関連付けるという,全く新しいアプローチをとる。
我々は,複数のバイナリ関数の埋め込みを新しいアンサンブル表現に結合し,コントラスト学習手法を用いて名前表現潜在空間と整列し,関数名を関数名に適した変換器アーキテクチャで生成するBLensを提案する。
実験の結果,BLensは最先端技術よりも優れていた。
通常のバイナリごとの分割設定では、0.70に対してF_1$スコアが0.79である。
一般化性を強調するクロスプロジェクト設定では、0.29に対してF_1$スコア0.46を得る。
最後に、プロジェクト間で共有コンポーネントを減らす実験的な設定で、$F_1$スコアが0.32$であるのに対して、$0.19$である。
関連論文リスト
- PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning [10.668991471782618]
投票による名前のトークン化とマルチタスク学習を用いた関数名予測を行うフレームワークを提案する。
Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークにより、包括的な機能意味学を学ぶ。
エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。
論文 参考訳(メタデータ) (2024-05-15T06:01:40Z) - Cross-Inlining Binary Function Similarity Detection [16.923959153965857]
クロスインラインマッチングのためのパターンベースモデルCI-Detectorを提案する。
以上の結果から,CI-Detectorは81%の精度でクロスインラインペアを検出し,97%のリコールを達成できた。
論文 参考訳(メタデータ) (2024-01-11T08:42:08Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary [18.05110624825475]
逆コンパイルにおける顕著な課題は、変数名を復元することである。
本稿では,モデルバイアスと潜在的幻覚を緩和しながら生成モデルの強みを利用する新しい手法を提案する。
我々は、事前訓練された生成モデルCodeGemma-2BとCodeLlama-7BのプロトタイプGenNmを構築した。
論文 参考訳(メタデータ) (2023-06-05T02:39:48Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - VarCLR: Variable Semantic Representation Pre-training via Contrastive
Learning [84.70916463298109]
VarCLRは変数名のセマンティック表現を学ぶための新しいアプローチである。
VarCLRはコントラスト学習に適しており、明示的に類似した入力間の距離を最小化することを目的としている。
VarCLRはBERTのような洗練された汎用言語モデルを効果的に適用できることを示す。
論文 参考訳(メタデータ) (2021-12-05T18:40:32Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - XFL: eXtreme Function Labeling [3.9876810376226053]
バイナリ関数に対して適切なラベルを選択するための極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を導入する。
XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。
バイナリコードのセマンティクスをキャプチャするために,新しい関数埋め込みであるDEXTERを導入する。
論文 参考訳(メタデータ) (2021-07-28T14:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。