論文の概要: Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2405.09112v1
- Date: Wed, 15 May 2024 06:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:16:04.850300
- Title: Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning
- Title(参考訳): 音声による名前トークン化とマルチタスク学習による関数名予測の強化
- Authors: Xiaoling Zhang, Zhengzi Xu, Shouguo Yang, Zhi Li, Zhiqiang Shi, Limin Sun,
- Abstract要約: 投票による名前のトークン化とマルチタスク学習を用いた関数名予測を行うフレームワークを提案する。
Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークにより、包括的な機能意味学を学ぶ。
エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。
- 参考スコア(独自算出の注目度): 10.668991471782618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reverse engineers would acquire valuable insights from descriptive function names, which are absent in publicly released binaries. Recent advances in binary function name prediction using data-driven machine learning show promise. However, existing approaches encounter difficulties in capturing function semantics in diverse optimized binaries and fail to reserve the meaning of labels in function names. We propose Epitome, a framework that enhances function name prediction using votes-based name tokenization and multi-task learning, specifically tailored for different compilation optimization binaries. Epitome learns comprehensive function semantics by pre-trained assembly language model and graph neural network, incorporating function semantics similarity prediction task, to maximize the similarity of function semantics in the context of different compilation optimization levels. In addition, we present two data preprocessing methods to improve the comprehensibility of function names. We evaluate the performance of Epitome using 2,597,346 functions extracted from binaries compiled with 5 optimizations (O0-Os) for 4 architectures (x64, x86, ARM, and MIPS). Epitome outperforms the state-of-the-art function name prediction tool by up to 44.34%, 64.16%, and 54.44% in precision, recall, and F1 score, while also exhibiting superior generalizability.
- Abstract(参考訳): リバースエンジニアは、公開バイナリにはない記述関数名から貴重な洞察を得るだろう。
データ駆動機械学習を用いたバイナリ関数名予測の最近の進歩は有望である。
しかし、既存のアプローチでは、多様な最適化されたバイナリで関数のセマンティクスをキャプチャすることは困難であり、関数名にラベルの意味を保存できない。
本稿では,様々なコンパイル最適化バイナリ用に最適化された,投票ベースの名前トークン化とマルチタスク学習を用いた関数名予測を行うフレームワークであるEpitomeを提案する。
Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークを用いて、関数セマンティクスの類似度予測タスクを導入し、異なるコンパイル最適化レベルのコンテキストにおける関数セマンティクスの類似度を最大化するために、包括的な関数セマンティクスを学習する。
さらに,関数名の理解性を向上する2つのデータ前処理手法を提案する。
我々は,4つのアーキテクチャ(x64,x86,ARM,MIPS)に対して,5つの最適化(O0-Os)でコンパイルされたバイナリから抽出した2,597,346個の関数を用いてエピトームの性能を評価する。
エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。
関連論文リスト
- Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory [66.88278207591294]
本稿では,新しいより長いデータ列に対して,ニューラルネットワークによるシンボル処理の理解と適用を支援するために,Pointer-Augmented Neural Memory (PANM)を提案する。
PANMは、新しい物理アドレスとポインタ操作技術を使用して、人間とコンピュータのシンボル処理能力を模倣する外部のニューラルメモリを統合する。
論文 参考訳(メタデータ) (2024-04-18T03:03:46Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
FoC-BinLLMは、ROUGE-LスコアでChatGPTを14.61%上回った。
FoC-Simは52%高いRecall@1で過去のベストメソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Function Trees: Transparent Machine Learning [1.3597551064547502]
このような関数のグローバルな性質を知ることは、データを生成するシステムを理解するのに役立つ。
関数ツリーは、関数のメインとインタラクションのすべての効果を素早く識別し、計算するために使用することができる。
論文 参考訳(メタデータ) (2024-03-19T20:23:31Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - NeuDep: Neural Binary Memory Dependence Analysis [28.33030658966508]
本稿では,バイナリプログラムの実行方法に関する学習知識を活用して,メモリ依存を予測するための機械学習に基づく新しいアプローチを提案する。
我々はNeuDepにアプローチを実装し、2つのコンパイラ、4つの最適化、4つの難読パスでコンパイルされた41の人気のあるソフトウェアプロジェクトで評価する。
論文 参考訳(メタデータ) (2022-10-04T04:59:36Z) - VarCLR: Variable Semantic Representation Pre-training via Contrastive
Learning [84.70916463298109]
VarCLRは変数名のセマンティック表現を学ぶための新しいアプローチである。
VarCLRはコントラスト学習に適しており、明示的に類似した入力間の距離を最小化することを目的としている。
VarCLRはBERTのような洗練された汎用言語モデルを効果的に適用できることを示す。
論文 参考訳(メタデータ) (2021-12-05T18:40:32Z) - XFL: eXtreme Function Labeling [3.9876810376226053]
バイナリ関数に対して適切なラベルを選択するための極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を導入する。
XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。
バイナリコードのセマンティクスをキャプチャするために,新しい関数埋め込みであるDEXTERを導入する。
論文 参考訳(メタデータ) (2021-07-28T14:49:30Z) - Neural Network Approximation of Refinable Functions [8.323468006516018]
本研究では, 深部ReLUネットワークの出力幅が一定であり, 精度指数で深部を増大させることにより, 精錬可能関数が近似可能であることを示す。
本研究は,ウェーブレットの標準構成に使用される関数と,コンピュータ支援幾何設計における部分分割アルゴリズムを用いて構築される関数に適用する。
論文 参考訳(メタデータ) (2021-07-28T06:45:36Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - Trex: Learning Execution Semantics from Micro-Traces for Binary
Similarity [28.725686235670402]
関数のマイクロトレースから実行セマンティクスを明示的に学習するためのトランスファーラーニングベースのフレームワークを提案する。
次に、マイクロトレースから実行セマンティクスを学ぶための新しいニューラルアーキテクチャを開発する。
私達は13の普及したソフトウェア プロジェクトからの1,472,066ファンクション バイナリのTrexを評価します。
論文 参考訳(メタデータ) (2020-12-16T00:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。