論文の概要: BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding
- arxiv url: http://arxiv.org/abs/2409.07889v2
- Date: Mon, 03 Feb 2025 15:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:05:23.267235
- Title: BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding
- Title(参考訳): BLens: Ensemble Embedding を用いたバイナリ関数のコントラストキャプション
- Authors: Tristan Benoit, Yunru Wang, Moritz Dannehl, Johannes Kinder,
- Abstract要約: 本稿では,複数のバイナリ関数の埋め込みを新しいアンサンブル表現に組み合わせたBLensを提案する。
我々の実験は、BLensが芸術の状態を著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 3.9473538223192293
- License:
- Abstract: Function names can greatly aid human reverse engineers, which has spurred the development of machine learning-based approaches to predicting function names in stripped binaries. Much current work in this area now uses transformers, applying a metaphor of machine translation from code to function names. Still, function naming models face challenges in generalizing to projects unrelated to the training set. In this paper, we take a completely new approach by transferring advances in automated image captioning to the domain of binary reverse engineering, such that different parts of a binary function can be associated with parts of its name. We propose BLens, which combines multiple binary function embeddings into a new ensemble representation, aligns it with the name representation latent space via a contrastive learning approach, and generates function names with a transformer architecture tailored for function names. Our experiments demonstrate that BLens significantly outperforms the state of the art. In the usual setting of splitting per binary, we achieve an $F_1$ score of 0.79 compared to 0.70. In the cross-project setting, which emphasizes generalizability, we achieve an $F_1$ score of 0.46 compared to 0.29. Finally, in an experimental setting reducing shared components across projects, we achieve an $F_1$ score of $0.32$ compared to $0.19$.
- Abstract(参考訳): 関数名は人間のリバースエンジニアを大いに助けることができ、それによって、取り除かれたバイナリの関数名を予測する機械学習ベースのアプローチの開発が加速した。
この分野における現在の作業の多くはトランスフォーマーを使用しており、コードから関数名への機械翻訳のメタファーを適用している。
それでも、関数命名モデルは、トレーニングセットとは無関係なプロジェクトに一般化する際の課題に直面している。
本稿では,自動字幕化の進歩をバイナリリバースエンジニアリングの領域に転送することで,バイナリ関数の異なる部分をその名前の一部に関連付けるという,全く新しいアプローチをとる。
我々は,複数のバイナリ関数の埋め込みを新しいアンサンブル表現に結合し,コントラスト学習手法を用いて名前表現潜在空間と整列し,関数名を関数名に適した変換器アーキテクチャで生成するBLensを提案する。
実験の結果,BLensは最先端技術よりも優れていた。
通常のバイナリごとの分割設定では、0.70に対してF_1$スコアが0.79である。
一般化性を強調するクロスプロジェクト設定では、0.29に対してF_1$スコア0.46を得る。
最後に、プロジェクト間で共有コンポーネントを減らす実験的な設定で、$F_1$スコアが0.32$であるのに対して、$0.19$である。
関連論文リスト
- Ehrenfeucht-Haussler Rank and Chain of Thought [51.33559894954108]
関数の階数$f$は、単層トランスフォーマーデコーダで要求される思考の連鎖の最小値に対応することを示す。
また、ブール列における1の$k$-thの発生位置を同定する問題を解析し、$k$CoTステップが必要であることを証明した。
論文 参考訳(メタデータ) (2025-01-22T16:30:58Z) - Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning [10.668991471782618]
投票による名前のトークン化とマルチタスク学習を用いた関数名予測を行うフレームワークを提案する。
Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークにより、包括的な機能意味学を学ぶ。
エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。
論文 参考訳(メタデータ) (2024-05-15T06:01:40Z) - Cross-Inlining Binary Function Similarity Detection [16.923959153965857]
クロスインラインマッチングのためのパターンベースモデルCI-Detectorを提案する。
以上の結果から,CI-Detectorは81%の精度でクロスインラインペアを検出し,97%のリコールを達成できた。
論文 参考訳(メタデータ) (2024-01-11T08:42:08Z) - VEXIR2Vec: An Architecture-Neutral Embedding Framework for Binary Similarity [36.341893383865745]
VexIR2Vecはアーキテクチャニュートラル中間表現(IR)であるVEX-IRを用いたバイナリ類似性のためのアプローチである
我々は、知識グラフ埋め込み技術を用いて、IRの実体レベルで表現の語彙を教師なしで学習する。
VexIR2Vecは3.1ドル-3.5ドルで、最も近いベースラインとマグニチュードよりも高速である。
論文 参考訳(メタデータ) (2023-12-01T11:22:10Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - VarCLR: Variable Semantic Representation Pre-training via Contrastive
Learning [84.70916463298109]
VarCLRは変数名のセマンティック表現を学ぶための新しいアプローチである。
VarCLRはコントラスト学習に適しており、明示的に類似した入力間の距離を最小化することを目的としている。
VarCLRはBERTのような洗練された汎用言語モデルを効果的に適用できることを示す。
論文 参考訳(メタデータ) (2021-12-05T18:40:32Z) - XFL: eXtreme Function Labeling [3.9876810376226053]
バイナリ関数に対して適切なラベルを選択するための極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を導入する。
XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。
バイナリコードのセマンティクスをキャプチャするために,新しい関数埋め込みであるDEXTERを導入する。
論文 参考訳(メタデータ) (2021-07-28T14:49:30Z) - Trex: Learning Execution Semantics from Micro-Traces for Binary
Similarity [28.725686235670402]
関数のマイクロトレースから実行セマンティクスを明示的に学習するためのトランスファーラーニングベースのフレームワークを提案する。
次に、マイクロトレースから実行セマンティクスを学ぶための新しいニューラルアーキテクチャを開発する。
私達は13の普及したソフトウェア プロジェクトからの1,472,066ファンクション バイナリのTrexを評価します。
論文 参考訳(メタデータ) (2020-12-16T00:24:51Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z) - On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文 参考訳(メタデータ) (2020-02-23T22:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。