論文の概要: Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2405.09112v1
- Date: Wed, 15 May 2024 06:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:16:04.850300
- Title: Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning
- Title(参考訳): 音声による名前トークン化とマルチタスク学習による関数名予測の強化
- Authors: Xiaoling Zhang, Zhengzi Xu, Shouguo Yang, Zhi Li, Zhiqiang Shi, Limin Sun,
- Abstract要約: 投票による名前のトークン化とマルチタスク学習を用いた関数名予測を行うフレームワークを提案する。
Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークにより、包括的な機能意味学を学ぶ。
エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。
- 参考スコア(独自算出の注目度): 10.668991471782618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reverse engineers would acquire valuable insights from descriptive function names, which are absent in publicly released binaries. Recent advances in binary function name prediction using data-driven machine learning show promise. However, existing approaches encounter difficulties in capturing function semantics in diverse optimized binaries and fail to reserve the meaning of labels in function names. We propose Epitome, a framework that enhances function name prediction using votes-based name tokenization and multi-task learning, specifically tailored for different compilation optimization binaries. Epitome learns comprehensive function semantics by pre-trained assembly language model and graph neural network, incorporating function semantics similarity prediction task, to maximize the similarity of function semantics in the context of different compilation optimization levels. In addition, we present two data preprocessing methods to improve the comprehensibility of function names. We evaluate the performance of Epitome using 2,597,346 functions extracted from binaries compiled with 5 optimizations (O0-Os) for 4 architectures (x64, x86, ARM, and MIPS). Epitome outperforms the state-of-the-art function name prediction tool by up to 44.34%, 64.16%, and 54.44% in precision, recall, and F1 score, while also exhibiting superior generalizability.
- Abstract(参考訳): リバースエンジニアは、公開バイナリにはない記述関数名から貴重な洞察を得るだろう。
データ駆動機械学習を用いたバイナリ関数名予測の最近の進歩は有望である。
しかし、既存のアプローチでは、多様な最適化されたバイナリで関数のセマンティクスをキャプチャすることは困難であり、関数名にラベルの意味を保存できない。
本稿では,様々なコンパイル最適化バイナリ用に最適化された,投票ベースの名前トークン化とマルチタスク学習を用いた関数名予測を行うフレームワークであるEpitomeを提案する。
Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークを用いて、関数セマンティクスの類似度予測タスクを導入し、異なるコンパイル最適化レベルのコンテキストにおける関数セマンティクスの類似度を最大化するために、包括的な関数セマンティクスを学習する。
さらに,関数名の理解性を向上する2つのデータ前処理手法を提案する。
我々は,4つのアーキテクチャ(x64,x86,ARM,MIPS)に対して,5つの最適化(O0-Os)でコンパイルされたバイナリから抽出した2,597,346個の関数を用いてエピトームの性能を評価する。
エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding [3.9473538223192293]
本稿では,複数のバイナリ関数の埋め込みを新しいアンサンブル表現に組み合わせたBLensを提案する。
実験では,BLensが芸術の状態を著しく上回っていることを実証した。
論文 参考訳(メタデータ) (2024-09-12T09:49:34Z) - Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory [66.88278207591294]
本稿では,新しいより長いデータ列に対して,ニューラルネットワークによるシンボル処理の理解と適用を支援するために,Pointer-Augmented Neural Memory (PANM)を提案する。
PANMは、新しい物理アドレスとポインタ操作技術を使用して、人間とコンピュータのシンボル処理能力を模倣する外部のニューラルメモリを統合する。
論文 参考訳(メタデータ) (2024-04-18T03:03:46Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Function Trees: Transparent Machine Learning [1.3597551064547502]
このような関数のグローバルな性質を知ることは、データを生成するシステムを理解するのに役立つ。
関数ツリーは、関数のメインとインタラクションのすべての効果を素早く識別し、計算するために使用することができる。
論文 参考訳(メタデータ) (2024-03-19T20:23:31Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - NeuDep: Neural Binary Memory Dependence Analysis [28.33030658966508]
本稿では,バイナリプログラムの実行方法に関する学習知識を活用して,メモリ依存を予測するための機械学習に基づく新しいアプローチを提案する。
我々はNeuDepにアプローチを実装し、2つのコンパイラ、4つの最適化、4つの難読パスでコンパイルされた41の人気のあるソフトウェアプロジェクトで評価する。
論文 参考訳(メタデータ) (2022-10-04T04:59:36Z) - VarCLR: Variable Semantic Representation Pre-training via Contrastive
Learning [84.70916463298109]
VarCLRは変数名のセマンティック表現を学ぶための新しいアプローチである。
VarCLRはコントラスト学習に適しており、明示的に類似した入力間の距離を最小化することを目的としている。
VarCLRはBERTのような洗練された汎用言語モデルを効果的に適用できることを示す。
論文 参考訳(メタデータ) (2021-12-05T18:40:32Z) - XFL: eXtreme Function Labeling [3.9876810376226053]
バイナリ関数に対して適切なラベルを選択するための極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を導入する。
XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。
バイナリコードのセマンティクスをキャプチャするために,新しい関数埋め込みであるDEXTERを導入する。
論文 参考訳(メタデータ) (2021-07-28T14:49:30Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - Trex: Learning Execution Semantics from Micro-Traces for Binary
Similarity [28.725686235670402]
関数のマイクロトレースから実行セマンティクスを明示的に学習するためのトランスファーラーニングベースのフレームワークを提案する。
次に、マイクロトレースから実行セマンティクスを学ぶための新しいニューラルアーキテクチャを開発する。
私達は13の普及したソフトウェア プロジェクトからの1,472,066ファンクション バイナリのTrexを評価します。
論文 参考訳(メタデータ) (2020-12-16T00:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。